Évaluation

Différences de prompts et de modèles

Évaluation côte à côte d'un prompt ou modèle candidat contre la version de production sur le même jeu d'évaluations — l'unité de changement sûr dans un workflow sérieux.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Ce qu'une différence mesure

Qualité (scorée par rubrique ou LLM-comme-juge contre étalon), régressions (toute défaillance sur le jeu de régression curé), latence (p50, p95, p99), coût (tokens entrée + sortie multipliés par le prix) et déplacement de comportement (similarité sémantique des sorties par rapport à la référence — quand les sorties changent de forme, le changement doit être intentionnel).

Qualité sur le jeu étalon avec rubrique ou LLM-juge
Compte de régressions sur le jeu d'échecs curé
Distribution de latence (p50, p95, p99)
Coût par requête et déplacement vs référence

Pourquoi des écarts, pas un score isolé

Un score isolé vous dit « mieux que rien ». Un écart par rapport à la version de production vous dit s'il faut livrer — y compris si la nouvelle version est meilleure de façon qui compte et pas pire de façon qui se cache. Les écarts sont l'artefact qu'un réviseur signe ; les scores sont l'entrée de l'écart.

Calibration LLM-comme-juge

Les modèles juges dérivent à travers les versions et les rubriques dérivent à travers les réviseurs. Nous calibrons le juge contre un petit jeu étiqueté par humains à chaque changement du jeu d'évaluations, et nous rapportons l'accord inter-évaluateurs pour que les réviseurs sachent à quel point faire confiance au score. Un juge qui désaccorde plus de 15 % du temps avec les humains n'est pas un juge ; c'est un départageur qui a besoin de revue lui-même.

Ressources connexes

Évaluations de workflow

Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.

Portes de promotion

Les seuils qu'un changement candidat doit franchir avant d'atteindre la production — qualité, latence, coût, mémoire, sécurité — encodés pour que la porte soit appliquée par CI, pas par espoir.

Routage de modèles

Une stratégie de passerelle pour choisir le bon modèle par tâche — selon la confidentialité, le coût, la latence, la qualité et le mode de défaillance — et basculer proprement quand un fournisseur se dégrade.