Évaluation

Agents auto-optimisants

Des agents qui génèrent, testent, comparent et promeuvent des variantes de workflow sous contraintes mesurables — qualité, latence, coût, mémoire, sécurité — au lieu de s'appuyer sur l'intuition ou les classements de fournisseurs.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Comment fonctionne l'optimisation

Une boucle d'optimisation propose des variantes — changer de modèle, resserrer le retrieval, modifier un prompt, restructurer le graphe, régénérer un code de gestionnaire — les exécute en parallèle contre le jeu d'évaluations, et score chacune sur les axes convenus. Les candidats Pareto-dominants sont remontés pour revue ; un humain décide lesquels promouvoir et le résultat est un changement versionné à provenance traçable.

Ce qui peut changer

Le routage des modèles, la politique de prompts, la forme du retrieval (découpage, poids hybrides, profondeur de rerank, règles de citation), les budgets et timeouts d'outils, la portée mémoire, la structure des nœuds et le code de gestionnaire généré. Chaque surface a son propre espace de recherche et ses propres contraintes de sécurité.

Pourquoi il faut le jeu d'évaluations

L'optimisation sans jeu d'évaluations stable, c'est de la dérive avec un budget. Le système s'améliorera sur ce qu'il peut mesurer et se dégradera sur ce qu'il ne mesure pas. Construire et maintenir le jeu — ajouter de nouveaux cas de régression, rafraîchir les étalons, recalibrer le LLM-comme-juge — est la discipline qui rend l'optimisation sécuritaire.

Au-delà de l'optimisation de prompts et de programmes

Les balayages de prompts, le bootstrap few-shot et la recherche de structure de programme sont la moitié bien étudiée du problème. Les surfaces que nous ajoutons à l'espace de recherche sont celles qui déplacent la latence, la fiabilité et les dollars en production : forme de graphe, politique de retrieval (découpage, poids hybrides, profondeur de rerank), budgets et timeouts d'outils, routage de modèles par étape, et code de gestionnaire généré — chacune gouvernée par les mêmes portes de promotion qu'un changement écrit à la main.

Ressources connexes

Évaluations de workflow

Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.

Routage de modèles

Une stratégie de passerelle pour choisir le bon modèle par tâche — selon la confidentialité, le coût, la latence, la qualité et le mode de défaillance — et basculer proprement quand un fournisseur se dégrade.

Observabilité agent

Une visibilité au niveau des traces sur les appels de modèle, le retrieval, les outils, les décisions, les approbations, les coûts et les échecs — le substrat opérationnel que toute autre discipline (évaluations, optimisation, gouvernance) consulte.