Routage de modèles
Une stratégie de passerelle pour choisir le bon modèle par tâche — selon la confidentialité, le coût, la latence, la qualité et le mode de défaillance — et basculer proprement quand un fournisseur se dégrade.
Pourquoi router
Un seul modèle est rarement optimal pour chaque tâche d'un workflow. Classification, raisonnement de retrieval, résumé, extraction structurée, codage et génération de la réponse finale ont des courbes coût-par-qualité différentes. Un petit modèle rapide et bon marché est souvent correct pour la classification et l'extraction structurée ; un modèle de raisonnement frontière gagne son coût sur les étapes où la qualité de raisonnement change le résultat.
- Routage par étape plutôt que par workflow
- Modèles frontières pour le raisonnement à haute complexité
- Modèles privés ou locaux pour les charges sensibles
- Bascules de secours en cas de panne ou de régression
Axes de routage
Confidentialité (ces données quittent-elles une frontière contrôlée), coût (prix par token de sortie multiplié par la longueur attendue), latence (budget p95 du workflow appelant), qualité (score d'évaluation sur cette classe de tâche), et mode de défaillance (que se passe-t-il quand l'appel expire ou retourne du bruit). Une décision de routage est le compromis explicite à travers ces axes.
Réalités opérationnelles
Limites de débit des fournisseurs, dépréciations de modèles, disponibilité régionale et changements de tarification affectent tous le routage en runtime. La passerelle absorbe ces changements pour que le workflow ne les voie pas. Chaque appel routé porte la décision de route dans sa trace pour que coût et qualité soient attribuables par route, pas seulement par workflow.
Ressources connexes
Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.
La couche de politiques pour l'accès aux données, les permissions d'outils, les approbations humaines, les pistes d'audit, la rétention et les frontières de déploiement — encodée comme configuration que le runtime applique, pas comme document que le runtime ignore.
Une visibilité au niveau des traces sur les appels de modèle, le retrieval, les outils, les décisions, les approbations, les coûts et les échecs — le substrat opérationnel que toute autre discipline (évaluations, optimisation, gouvernance) consulte.