Article

Différences de prompts et de modèles

Évaluation côte à côte d'un prompt ou modèle candidat contre la version de production sur le même jeu d'évaluations — l'unité de changement sûr dans un workflow sérieux.

Ce qu'une différence mesure

Qualité (scorée par rubrique ou LLM-comme-juge contre étalon), régressions (toute défaillance sur le jeu de régression curé), latence (p50, p95, p99), coût (tokens entrée + sortie multipliés par le prix) et déplacement de comportement (similarité sémantique des sorties par rapport à la référence — quand les sorties changent de forme, le changement doit être intentionnel).

  • Qualité sur le jeu étalon avec rubrique ou LLM-juge
  • Compte de régressions sur le jeu d'échecs curé
  • Distribution de latence (p50, p95, p99)
  • Coût par requête et déplacement vs référence

Pourquoi des écarts, pas un score isolé

Un score isolé vous dit « mieux que rien ». Un écart par rapport à la version de production vous dit s'il faut livrer — y compris si la nouvelle version est meilleure de façon qui compte et pas pire de façon qui se cache. Les écarts sont l'artefact qu'un réviseur signe ; les scores sont l'entrée de l'écart.

Calibration LLM-comme-juge

Les modèles juges dérivent à travers les versions et les rubriques dérivent à travers les réviseurs. Nous calibrons le juge contre un petit jeu étiqueté par humains à chaque changement du jeu d'évaluations, et nous rapportons l'accord inter-évaluateurs pour que les réviseurs sachent à quel point faire confiance au score. Un juge qui désaccorde plus de 15 % du temps avec les humains n'est pas un juge ; c'est un départageur qui a besoin de revue lui-même.

Ressources connexes