Opérations

Routage de modèles

Une stratégie de passerelle pour choisir le bon modèle par tâche — selon la confidentialité, le coût, la latence, la qualité et le mode de défaillance — et basculer proprement quand un fournisseur se dégrade.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Pourquoi router

Un seul modèle est rarement optimal pour chaque tâche d'un workflow. Classification, raisonnement de retrieval, résumé, extraction structurée, codage et génération de la réponse finale ont des courbes coût-par-qualité différentes. Un petit modèle rapide et bon marché est souvent correct pour la classification et l'extraction structurée ; un modèle de raisonnement frontière gagne son coût sur les étapes où la qualité de raisonnement change le résultat.

Routage par étape plutôt que par workflow
Modèles frontières pour le raisonnement à haute complexité
Modèles privés ou locaux pour les charges sensibles
Bascules de secours en cas de panne ou de régression

Axes de routage

Confidentialité (ces données quittent-elles une frontière contrôlée), coût (prix par token de sortie multiplié par la longueur attendue), latence (budget p95 du workflow appelant), qualité (score d'évaluation sur cette classe de tâche), et mode de défaillance (que se passe-t-il quand l'appel expire ou retourne du bruit). Une décision de routage est le compromis explicite à travers ces axes.

Réalités opérationnelles

Limites de débit des fournisseurs, dépréciations de modèles, disponibilité régionale et changements de tarification affectent tous le routage en runtime. La passerelle absorbe ces changements pour que le workflow ne les voie pas. Chaque appel routé porte la décision de route dans sa trace pour que coût et qualité soient attribuables par route, pas seulement par workflow.

Ressources connexes

Évaluations de workflow

Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.

Gouvernance

La couche de politiques pour l'accès aux données, les permissions d'outils, les approbations humaines, les pistes d'audit, la rétention et les frontières de déploiement — encodée comme configuration que le runtime applique, pas comme document que le runtime ignore.

Observabilité agent

Une visibilité au niveau des traces sur les appels de modèle, le retrieval, les outils, les décisions, les approbations, les coûts et les échecs — le substrat opérationnel que toute autre discipline (évaluations, optimisation, gouvernance) consulte.