Agents auto-optimisants
Des agents qui génèrent, testent, comparent et promeuvent des variantes de workflow sous contraintes mesurables — qualité, latence, coût, mémoire, sécurité — au lieu de s'appuyer sur l'intuition ou les classements de fournisseurs.
L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.
Ce qui peut changer
Le routage des modèles, la politique de prompts, la forme du retrieval (découpage, poids hybrides, profondeur de rerank, règles de citation), les budgets et timeouts d'outils, la portée mémoire, la structure des nœuds et le code de gestionnaire généré. Chaque surface a son propre espace de recherche et ses propres contraintes de sécurité.
Pourquoi il faut le jeu d'évaluations
L'optimisation sans jeu d'évaluations stable, c'est de la dérive avec un budget. Le système s'améliorera sur ce qu'il peut mesurer et se dégradera sur ce qu'il ne mesure pas. Construire et maintenir le jeu — ajouter de nouveaux cas de régression, rafraîchir les étalons, recalibrer le LLM-comme-juge — est la discipline qui rend l'optimisation sécuritaire.
Au-delà de l'optimisation de prompts et de programmes
Les balayages de prompts, le bootstrap few-shot et la recherche de structure de programme sont la moitié bien étudiée du problème. Les surfaces que nous ajoutons à l'espace de recherche sont celles qui déplacent la latence, la fiabilité et les dollars en production : forme de graphe, politique de retrieval (découpage, poids hybrides, profondeur de rerank), budgets et timeouts d'outils, routage de modèles par étape, et code de gestionnaire généré — chacune gouvernée par les mêmes portes de promotion qu'un changement écrit à la main.
Ressources connexes
Suites d'évaluation qui testent prompts, modèles, politiques de retrieval, code généré et structure de workflow contre des seuils de qualité, latence, coût, mémoire et sécurité avant promotion.
Une stratégie de passerelle pour choisir le bon modèle par tâche — selon la confidentialité, le coût, la latence, la qualité et le mode de défaillance — et basculer proprement quand un fournisseur se dégrade.
Une visibilité au niveau des traces sur les appels de modèle, le retrieval, les outils, les décisions, les approbations, les coûts et les échecs — le substrat opérationnel que toute autre discipline (évaluations, optimisation, gouvernance) consulte.
Comment fonctionne l'optimisation
Une boucle d'optimisation propose des variantes — changer de modèle, resserrer le retrieval, modifier un prompt, restructurer le graphe, régénérer un code de gestionnaire — les exécute en parallèle contre le jeu d'évaluations, et score chacune sur les axes convenus. Les candidats Pareto-dominants sont remontés pour revue ; un humain décide lesquels promouvoir et le résultat est un changement versionné à provenance traçable.