Article

Observabilité agent

Une visibilité au niveau des traces sur les appels de modèle, le retrieval, les outils, les décisions, les approbations, les coûts et les échecs — le substrat opérationnel que toute autre discipline (évaluations, optimisation, gouvernance) consulte.

Tout tracer

Le comportement des agents est non déterministe. Les traces rendent les exécutions inspectables, comparables, rejouables et utiles pour l'évaluation. Nous émettons des spans compatibles OpenTelemetry pour chaque appel de modèle, invocation d'outil, étape de retrieval, embranchement de décision, événement d'approbation et effet de bord externe — avec coût, latence, comptes de tokens et entrées-sorties (sous règles PII).

  • Spans de modèle, tokens et latence (OpenTelemetry)
  • Entrées, sorties et durée d'invocation d'outil
  • Preuves de retrieval, scores et citations
  • Événements d'approbation, de rejet et d'escalade

Piles que nous utilisons

Langfuse, Arize Phoenix, Helicone et Datadog sont des destinations fréquentes selon le reste de la pile. La forme de donnée est ce qui compte : des spans qui lient parent-enfant à travers les frontières modèle-outil-retrieval, des attributs pour coût et qualité, et un ID de trace stable qui suit un workflow de l'événement d'entrée au résultat de sortie.

Pourquoi les traces nourrissent les évaluations

Un jeu d'évaluations sans contexte de trace vous dit quel prompt a marqué le plus haut sur un banc statique. Un jeu d'évaluations bâti sur des traces vous dit quel prompt a marqué le plus haut sur les requêtes réellement envoyées la semaine dernière, avec le contexte de retrieval réellement vu. Le premier est de la recherche ; le deuxième est de l'opération.

Ressources connexes