Différences de prompts et de modèles
Évaluation côte à côte d'un prompt ou modèle candidat contre la version de production sur le même jeu d'évaluations — l'unité de changement sûr dans un workflow sérieux.
L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.
Ce qu'une différence mesure
Qualité (scorée par rubrique ou LLM-comme-juge contre étalon), régressions (toute défaillance sur le jeu de régression curé), latence (p50, p95, p99), coût (tokens entrée + sortie multipliés par le prix) et déplacement de comportement (similarité sémantique des sorties par rapport à la référence — quand les sorties changent de forme, le changement doit être intentionnel).
- Qualité sur le jeu étalon avec rubrique ou LLM-juge
- Compte de régressions sur le jeu d'échecs curé
- Distribution de latence (p50, p95, p99)
- Coût par requête et déplacement vs référence
Pourquoi des écarts, pas un score isolé
Un score isolé vous dit « mieux que rien ». Un écart par rapport à la version de production vous dit s'il faut livrer — y compris si la nouvelle version est meilleure de façon qui compte et pas pire de façon qui se cache. Les écarts sont l'artefact qu'un réviseur signe ; les scores sont l'entrée de l'écart.
Calibration LLM-comme-juge
Les modèles juges dérivent à travers les versions et les rubriques dérivent à travers les réviseurs. Nous calibrons le juge contre un petit jeu étiqueté par humains à chaque changement du jeu d'évaluations, et nous rapportons l'accord inter-évaluateurs pour que les réviseurs sachent à quel point faire confiance au score. Un juge qui désaccorde plus de 15 % du temps avec les humains n'est pas un juge ; c'est un départageur qui a besoin de revue lui-même.
Ressources connexes
Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.
Les seuils qu'un changement candidat doit franchir avant d'atteindre la production — qualité, latence, coût, mémoire, sécurité — encodés pour que la porte soit appliquée par CI, pas par espoir.
Une stratégie de passerelle pour choisir le bon modèle par tâche — selon la confidentialité, le coût, la latence, la qualité et le mode de défaillance — et basculer proprement quand un fournisseur se dégrade.