Qualité des données
Contrats, validation, lignage, fraîcheur et propriété pour des données qu'un agent peut utiliser sans risque — pas un projet de nettoyage ponctuel, mais une discipline opérationnelle continue.
Le substrat détermine l'agent
Si les données sont périmées, ambiguës, sans propriétaire ou non fiables, les agents amplifient le problème à grande vitesse. Un pipeline de retrieval qui tire d'une table que plus personne ne possède depuis deux ans est un litige qui attend une citation. La qualité des données n'est pas du nettoyage ; c'est de la gestion de risque opérationnel avec un nom sur chaque source.
Comment nous appliquons
Les contrats de source déclarent la forme d'entrée, la cible de fraîcheur, le propriétaire et le budget d'erreur pour chaque chemin d'ingestion. La validation s'exécute à l'écriture : les enregistrements échoués tombent dans une table de lettres mortes avec notification, pas en silence. Les vérifications de fraîcheur, de nombre de lignes, de schéma et de taux de nulls s'exécutent à la lecture à la frontière du lakehouse. Les régressions de qualité paginent le propriétaire de la source, pas le consommateur en aval.
- Contrats de source avec propriétaire et SLO de fraîcheur
- Vérifications de schéma, de taux de nulls et de distribution
- Tables de lettres mortes pour les enregistrements échoués
- Lignage qui nomme le propriétaire de source à l'échec
Outils qui conviennent
dbt ou SQLMesh pour les transformations avec tests intégrés ; Great Expectations, Soda ou Monte Carlo pour la qualité ; OpenLineage / Marquez ou DataHub pour le lignage et la propriété. Le choix dépend de la pile déjà en vol ; le principe — propriété et contrats sur chaque source — ne dépend pas.
Ressources connexes
La carte propriétaire des systèmes opérationnels d'une organisation — schémas, documents, code, tickets, événements, propriétaires et permissions — reliés par les relations dont un agent a besoin pour retrouver, citer et agir.
Pipelines de retrieval qui combinent découpage, embeddings, filtrage par métadonnées, recherche hybride par mots-clés, reranking, permissions et évaluation — pas juste des lookups au plus proche voisin.
Comment un système IA devient durablement meilleur — pas en étant plus intelligent, mais en acheminant chaque échec de production vers une mise à jour de connaissance, un cas d'évaluation, un correctif de workflow ou une exception documentée, avec un propriétaire nommé.