Substrat de données

Qualité des données

Contrats, validation, lignage, fraîcheur et propriété pour des données qu'un agent peut utiliser sans risque — pas un projet de nettoyage ponctuel, mais une discipline opérationnelle continue.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Le substrat détermine l'agent

Si les données sont périmées, ambiguës, sans propriétaire ou non fiables, les agents amplifient le problème à grande vitesse. Un pipeline de retrieval qui tire d'une table que plus personne ne possède depuis deux ans est un litige qui attend une citation. La qualité des données n'est pas du nettoyage ; c'est de la gestion de risque opérationnel avec un nom sur chaque source.

Comment nous appliquons

Les contrats de source déclarent la forme d'entrée, la cible de fraîcheur, le propriétaire et le budget d'erreur pour chaque chemin d'ingestion. La validation s'exécute à l'écriture : les enregistrements échoués tombent dans une table de lettres mortes avec notification, pas en silence. Les vérifications de fraîcheur, de nombre de lignes, de schéma et de taux de nulls s'exécutent à la lecture à la frontière du lakehouse. Les régressions de qualité paginent le propriétaire de la source, pas le consommateur en aval.

Contrats de source avec propriétaire et SLO de fraîcheur
Vérifications de schéma, de taux de nulls et de distribution
Tables de lettres mortes pour les enregistrements échoués
Lignage qui nomme le propriétaire de source à l'échec

Outils qui conviennent

dbt ou SQLMesh pour les transformations avec tests intégrés ; Great Expectations, Soda ou Monte Carlo pour la qualité ; OpenLineage / Marquez ou DataHub pour le lignage et la propriété. Le choix dépend de la pile déjà en vol ; le principe — propriété et contrats sur chaque source — ne dépend pas.

Ressources connexes

Graphe source

La carte propriétaire des systèmes opérationnels d'une organisation — schémas, documents, code, tickets, événements, propriétaires et permissions — reliés par les relations dont un agent a besoin pour retrouver, citer et agir.

Recherche vectorielle

Pipelines de retrieval qui combinent découpage, embeddings, filtrage par métadonnées, recherche hybride par mots-clés, reranking, permissions et évaluation — pas juste des lookups au plus proche voisin.

Connaissance en boucle fermée

Comment un système IA devient durablement meilleur — pas en étant plus intelligent, mais en acheminant chaque échec de production vers une mise à jour de connaissance, un cas d'évaluation, un correctif de workflow ou une exception documentée, avec un propriétaire nommé.