Évaluations de workflow
Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.
Au-delà des comparatifs de modèles
La question n'est pas de savoir quel modèle gagne seul sur un banc public. La question est de savoir quelle forme de workflow — prompt, modèle, profondeur de retrieval, budget d'outils, nombre de nœuds, chemin de bascule — survit aux seuils de vitesse, mémoire, qualité, coût et sécurité que votre opération exige. Une évaluation de workflow est le contrat entre l'équipe qui propose un changement et l'équipe qui opère la production.
- Tests de différences de prompts et de modèles sur les mêmes entrées
- Profondeur de retrieval, poids hybrides et expériences de reranking
- Mutations de code généré et de structure de nœuds
- Jeux de régression issus des échecs de production
Composition d'un jeu d'évaluations utile
Exemples étalons tirés de succès de production (avec gestion PII), régressions tirées d'échecs de production, cas adverses synthétiques pour des classes de bord connues, et un petit jeu de calibration étiqueté par humains utilisé pour valider la rubrique LLM-comme-juge. Le jeu d'évaluations est lui-même un artefact versionné qui passe en revue lors de tout changement.
Portes de promotion
Les candidats sont promus seulement lorsque la qualité, la latence p95, la mémoire, la fiabilité des outils et le prix total restent à l'intérieur des seuils définis — et qu'aucun cas de régression du jeu n'échoue. Les portes peuvent se resserrer dans le temps à mesure que le jeu grandit.
Ressources connexes
Des agents qui génèrent, testent, comparent et promeuvent des variantes de workflow sous contraintes mesurables — qualité, latence, coût, mémoire, sécurité — au lieu de s'appuyer sur l'intuition ou les classements de fournisseurs.
Une visibilité au niveau des traces sur les appels de modèle, le retrieval, les outils, les décisions, les approbations, les coûts et les échecs — le substrat opérationnel que toute autre discipline (évaluations, optimisation, gouvernance) consulte.
Une stratégie de passerelle pour choisir le bon modèle par tâche — selon la confidentialité, le coût, la latence, la qualité et le mode de défaillance — et basculer proprement quand un fournisseur se dégrade.