Évaluation

Évaluations de workflow

Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Au-delà des comparatifs de modèles

La question n'est pas de savoir quel modèle gagne seul sur un banc public. La question est de savoir quelle forme de workflow — prompt, modèle, profondeur de retrieval, budget d'outils, nombre de nœuds, chemin de bascule — survit aux seuils de vitesse, mémoire, qualité, coût et sécurité que votre opération exige. Une évaluation de workflow est le contrat entre l'équipe qui propose un changement et l'équipe qui opère la production.

Tests de différences de prompts et de modèles sur les mêmes entrées
Profondeur de retrieval, poids hybrides et expériences de reranking
Mutations de code généré et de structure de nœuds
Jeux de régression issus des échecs de production

Composition d'un jeu d'évaluations utile

Exemples étalons tirés de succès de production (avec gestion PII), régressions tirées d'échecs de production, cas adverses synthétiques pour des classes de bord connues, et un petit jeu de calibration étiqueté par humains utilisé pour valider la rubrique LLM-comme-juge. Le jeu d'évaluations est lui-même un artefact versionné qui passe en revue lors de tout changement.

Portes de promotion

Les candidats sont promus seulement lorsque la qualité, la latence p95, la mémoire, la fiabilité des outils et le prix total restent à l'intérieur des seuils définis — et qu'aucun cas de régression du jeu n'échoue. Les portes peuvent se resserrer dans le temps à mesure que le jeu grandit.

Ressources connexes

Agents auto-optimisants

Des agents qui génèrent, testent, comparent et promeuvent des variantes de workflow sous contraintes mesurables — qualité, latence, coût, mémoire, sécurité — au lieu de s'appuyer sur l'intuition ou les classements de fournisseurs.

Observabilité agent

Une visibilité au niveau des traces sur les appels de modèle, le retrieval, les outils, les décisions, les approbations, les coûts et les échecs — le substrat opérationnel que toute autre discipline (évaluations, optimisation, gouvernance) consulte.

Routage de modèles

Une stratégie de passerelle pour choisir le bon modèle par tâche — selon la confidentialité, le coût, la latence, la qualité et le mode de défaillance — et basculer proprement quand un fournisseur se dégrade.