Observabilité agent
Une visibilité au niveau des traces sur les appels de modèle, le retrieval, les outils, les décisions, les approbations, les coûts et les échecs — le substrat opérationnel que toute autre discipline (évaluations, optimisation, gouvernance) consulte.
L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.
Tout tracer
Le comportement des agents est non déterministe. Les traces rendent les exécutions inspectables, comparables, rejouables et utiles pour l'évaluation. Nous émettons des spans compatibles OpenTelemetry pour chaque appel de modèle, invocation d'outil, étape de retrieval, embranchement de décision, événement d'approbation et effet de bord externe — avec coût, latence, comptes de tokens et entrées-sorties (sous règles PII).
- Spans de modèle, tokens et latence (OpenTelemetry)
- Entrées, sorties et durée d'invocation d'outil
- Preuves de retrieval, scores et citations
- Événements d'approbation, de rejet et d'escalade
Piles que nous utilisons
Langfuse, Arize Phoenix, Helicone et Datadog sont des destinations fréquentes selon le reste de la pile. La forme de donnée est ce qui compte : des spans qui lient parent-enfant à travers les frontières modèle-outil-retrieval, des attributs pour coût et qualité, et un ID de trace stable qui suit un workflow de l'événement d'entrée au résultat de sortie.
Pourquoi les traces nourrissent les évaluations
Un jeu d'évaluations sans contexte de trace vous dit quel prompt a marqué le plus haut sur un banc statique. Un jeu d'évaluations bâti sur des traces vous dit quel prompt a marqué le plus haut sur les requêtes réellement envoyées la semaine dernière, avec le contexte de retrieval réellement vu. Le premier est de la recherche ; le deuxième est de l'opération.
Ressources connexes
Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.
Un catalogue gouverné d'outils — adossé au Model Context Protocol — avec schémas typés, portées de permissions, exigences d'approbation et pistes d'audit par invocation.
La couche de politiques pour l'accès aux données, les permissions d'outils, les approbations humaines, les pistes d'audit, la rétention et les frontières de déploiement — encodée comme configuration que le runtime applique, pas comme document que le runtime ignore.