Opérations

Routage de modèles

Une stratégie de passerelle pour choisir le bon modèle par tâche — selon la confidentialité, le coût, la latence, la qualité et le mode de défaillance — et basculer proprement quand un fournisseur se dégrade.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Pourquoi router

Un seul modèle est rarement optimal pour chaque tâche d'un workflow. Classification, raisonnement de retrieval, résumé, extraction structurée, codage et génération de la réponse finale ont des courbes coût-par-qualité différentes. Un petit modèle rapide et bon marché est souvent correct pour la classification et l'extraction structurée ; un modèle de raisonnement frontière gagne son coût sur les étapes où la qualité de raisonnement change le résultat.

  • Routage par étape plutôt que par workflow
  • Modèles frontières pour le raisonnement à haute complexité
  • Modèles privés ou locaux pour les charges sensibles
  • Bascules de secours en cas de panne ou de régression

Axes de routage

Confidentialité (ces données quittent-elles une frontière contrôlée), coût (prix par token de sortie multiplié par la longueur attendue), latence (budget p95 du workflow appelant), qualité (score d'évaluation sur cette classe de tâche), et mode de défaillance (que se passe-t-il quand l'appel expire ou retourne du bruit). Une décision de routage est le compromis explicite à travers ces axes.

Réalités opérationnelles

Limites de débit des fournisseurs, dépréciations de modèles, disponibilité régionale et changements de tarification affectent tous le routage en runtime. La passerelle absorbe ces changements pour que le workflow ne les voie pas. Chaque appel routé porte la décision de route dans sa trace pour que coût et qualité soient attribuables par route, pas seulement par workflow.

Ressources connexes