Opérations

Observabilité agent

Une visibilité au niveau des traces sur les appels de modèle, le retrieval, les outils, les décisions, les approbations, les coûts et les échecs — le substrat opérationnel que toute autre discipline (évaluations, optimisation, gouvernance) consulte.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Tout tracer

Le comportement des agents est non déterministe. Les traces rendent les exécutions inspectables, comparables, rejouables et utiles pour l'évaluation. Nous émettons des spans compatibles OpenTelemetry pour chaque appel de modèle, invocation d'outil, étape de retrieval, embranchement de décision, événement d'approbation et effet de bord externe — avec coût, latence, comptes de tokens et entrées-sorties (sous règles PII).

Spans de modèle, tokens et latence (OpenTelemetry)
Entrées, sorties et durée d'invocation d'outil
Preuves de retrieval, scores et citations
Événements d'approbation, de rejet et d'escalade

Piles que nous utilisons

Langfuse, Arize Phoenix, Helicone et Datadog sont des destinations fréquentes selon le reste de la pile. La forme de donnée est ce qui compte : des spans qui lient parent-enfant à travers les frontières modèle-outil-retrieval, des attributs pour coût et qualité, et un ID de trace stable qui suit un workflow de l'événement d'entrée au résultat de sortie.

Pourquoi les traces nourrissent les évaluations

Un jeu d'évaluations sans contexte de trace vous dit quel prompt a marqué le plus haut sur un banc statique. Un jeu d'évaluations bâti sur des traces vous dit quel prompt a marqué le plus haut sur les requêtes réellement envoyées la semaine dernière, avec le contexte de retrieval réellement vu. Le premier est de la recherche ; le deuxième est de l'opération.

Ressources connexes

Évaluations de workflow

Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.

Registre d'outils MCP

Un catalogue gouverné d'outils — adossé au Model Context Protocol — avec schémas typés, portées de permissions, exigences d'approbation et pistes d'audit par invocation.

Gouvernance

La couche de politiques pour l'accès aux données, les permissions d'outils, les approbations humaines, les pistes d'audit, la rétention et les frontières de déploiement — encodée comme configuration que le runtime applique, pas comme document que le runtime ignore.