Article

Évaluations de workflow

Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.

Au-delà des comparatifs de modèles

La question n'est pas de savoir quel modèle gagne seul sur un banc public. La question est de savoir quelle forme de workflow — prompt, modèle, profondeur de retrieval, budget d'outils, nombre de nœuds, chemin de bascule — survit aux seuils de vitesse, mémoire, qualité, coût et sécurité que votre opération exige. Une évaluation de workflow est le contrat entre l'équipe qui propose un changement et l'équipe qui opère la production.

  • Tests de différences de prompts et de modèles sur les mêmes entrées
  • Profondeur de retrieval, poids hybrides et expériences de reranking
  • Mutations de code généré et de structure de nœuds
  • Jeux de régression issus des échecs de production

Composition d'un jeu d'évaluations utile

Exemples étalons tirés de succès de production (avec gestion PII), régressions tirées d'échecs de production, cas adverses synthétiques pour des classes de bord connues, et un petit jeu de calibration étiqueté par humains utilisé pour valider la rubrique LLM-comme-juge. Le jeu d'évaluations est lui-même un artefact versionné qui passe en revue lors de tout changement.

Portes de promotion

Les candidats sont promus seulement lorsque la qualité, la latence p95, la mémoire, la fiabilité des outils et le prix total restent à l'intérieur des seuils définis — et qu'aucun cas de régression du jeu n'échoue. Les portes peuvent se resserrer dans le temps à mesure que le jeu grandit.

Ressources connexes