Évaluation

Différences de prompts et de modèles

Évaluation côte à côte d'un prompt ou modèle candidat contre la version de production sur le même jeu d'évaluations — l'unité de changement sûr dans un workflow sérieux.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Ce qu'une différence mesure

Qualité (scorée par rubrique ou LLM-comme-juge contre étalon), régressions (toute défaillance sur le jeu de régression curé), latence (p50, p95, p99), coût (tokens entrée + sortie multipliés par le prix) et déplacement de comportement (similarité sémantique des sorties par rapport à la référence — quand les sorties changent de forme, le changement doit être intentionnel).

  • Qualité sur le jeu étalon avec rubrique ou LLM-juge
  • Compte de régressions sur le jeu d'échecs curé
  • Distribution de latence (p50, p95, p99)
  • Coût par requête et déplacement vs référence

Pourquoi des écarts, pas un score isolé

Un score isolé vous dit « mieux que rien ». Un écart par rapport à la version de production vous dit s'il faut livrer — y compris si la nouvelle version est meilleure de façon qui compte et pas pire de façon qui se cache. Les écarts sont l'artefact qu'un réviseur signe ; les scores sont l'entrée de l'écart.

Calibration LLM-comme-juge

Les modèles juges dérivent à travers les versions et les rubriques dérivent à travers les réviseurs. Nous calibrons le juge contre un petit jeu étiqueté par humains à chaque changement du jeu d'évaluations, et nous rapportons l'accord inter-évaluateurs pour que les réviseurs sachent à quel point faire confiance au score. Un juge qui désaccorde plus de 15 % du temps avec les humains n'est pas un juge ; c'est un départageur qui a besoin de revue lui-même.

Ressources connexes