Routage de modèles
Une stratégie de gateway pour choisir le bon modèle par tâche selon la confidentialité, le coût, la latence, la qualité et le mode de défaillance.
L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.
Pourquoi router
Un seul modèle est rarement optimal pour toutes les tâches. Classification, raisonnement de retrieval, résumé, codage et génération de la réponse finale n'ont pas les mêmes profils de coût et de qualité.
- Modèles privés ou locaux pour les tâches sensibles à faible risque
- Modèles frontières pour le raisonnement à haute complexité
- Bascules de secours en cas de panne ou de régression de qualité
- Télémétrie de coût et de tokens par route
Ressources connexes
Suites d'évaluation qui mutent prompts, modèles, politiques de retrieval, code généré et structure des nœuds avant promotion.
La couche de politiques pour l'accès aux données, les permissions d'outils, les approbations humaines, les pistes d'audit et les frontières de déploiement.
Une visibilité au niveau des traces sur les appels de modèle, le retrieval, les outils, les décisions, les approbations, les coûts et les échecs.