Substrat de données

Contrats d'ingestion

Accords explicites entre une source de données et ses consommateurs — forme, fraîcheur, propriétaire et budget d'erreur — qui rendent les pannes de pipeline attribuables au lieu de mystérieuses.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Ce qu'un contrat spécifie

Schéma (champs typés avec sémantique, pas seulement types SQL) ; SLO de fraîcheur (les données ont au plus N minutes 99 % du temps) ; propriété (équipe ou personne en garde pour les ruptures) ; budget d'erreur (taux acceptable d'enregistrements tardifs ou malformés avant alerte) ; politique de rupture (que se passe-t-il quand le contrat est violé — lettre morte, reprise, échec dur).

  • Schéma typé avec métadonnées sémantiques
  • SLO de fraîcheur avec méthode de mesure
  • Propriétaire nommé et rotation de garde
  • Budget d'erreur et politique de rupture

Pourquoi les contrats battent le meilleur effort

Sans contrats, chaque rupture est une enquête. Avec contrats, les ruptures sont routées automatiquement vers le propriétaire responsable avec le contexte nécessaire. L'agent ou tableau de bord en aval apprend à faire confiance aux données — et la télémétrie de fraîcheur permet au retrieval de sauter ou rétrograder les sources silencieusement périmées.

Outillage

Schema Registry (Confluent / Apicurio) pour le streaming ; tests dbt ou SQLMesh pour les contrats d'entrepôt ; Soda ou Great Expectations pour la validation ; OpenLineage pour l'impact en aval ; PagerDuty ou Opsgenie pour la page réelle quand un contrat est rompu.

Ressources connexes