Substrat de données

Qualité des données

Contrats, validation, lignage, fraîcheur et propriété pour des données qu'un agent peut utiliser sans risque — pas un projet de nettoyage ponctuel, mais une discipline opérationnelle continue.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Le substrat détermine l'agent

Si les données sont périmées, ambiguës, sans propriétaire ou non fiables, les agents amplifient le problème à grande vitesse. Un pipeline de retrieval qui tire d'une table que plus personne ne possède depuis deux ans est un litige qui attend une citation. La qualité des données n'est pas du nettoyage ; c'est de la gestion de risque opérationnel avec un nom sur chaque source.

Comment nous appliquons

Les contrats de source déclarent la forme d'entrée, la cible de fraîcheur, le propriétaire et le budget d'erreur pour chaque chemin d'ingestion. La validation s'exécute à l'écriture : les enregistrements échoués tombent dans une table de lettres mortes avec notification, pas en silence. Les vérifications de fraîcheur, de nombre de lignes, de schéma et de taux de nulls s'exécutent à la lecture à la frontière du lakehouse. Les régressions de qualité paginent le propriétaire de la source, pas le consommateur en aval.

  • Contrats de source avec propriétaire et SLO de fraîcheur
  • Vérifications de schéma, de taux de nulls et de distribution
  • Tables de lettres mortes pour les enregistrements échoués
  • Lignage qui nomme le propriétaire de source à l'échec

Outils qui conviennent

dbt ou SQLMesh pour les transformations avec tests intégrés ; Great Expectations, Soda ou Monte Carlo pour la qualité ; OpenLineage / Marquez ou DataHub pour le lignage et la propriété. Le choix dépend de la pile déjà en vol ; le principe — propriété et contrats sur chaque source — ne dépend pas.

Ressources connexes