Contrats d'ingestion
Accords explicites entre une source de données et ses consommateurs — forme, fraîcheur, propriétaire et budget d'erreur — qui rendent les pannes de pipeline attribuables au lieu de mystérieuses.
L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.
Ce qu'un contrat spécifie
Schéma (champs typés avec sémantique, pas seulement types SQL) ; SLO de fraîcheur (les données ont au plus N minutes 99 % du temps) ; propriété (équipe ou personne en garde pour les ruptures) ; budget d'erreur (taux acceptable d'enregistrements tardifs ou malformés avant alerte) ; politique de rupture (que se passe-t-il quand le contrat est violé — lettre morte, reprise, échec dur).
- Schéma typé avec métadonnées sémantiques
- SLO de fraîcheur avec méthode de mesure
- Propriétaire nommé et rotation de garde
- Budget d'erreur et politique de rupture
Pourquoi les contrats battent le meilleur effort
Sans contrats, chaque rupture est une enquête. Avec contrats, les ruptures sont routées automatiquement vers le propriétaire responsable avec le contexte nécessaire. L'agent ou tableau de bord en aval apprend à faire confiance aux données — et la télémétrie de fraîcheur permet au retrieval de sauter ou rétrograder les sources silencieusement périmées.
Outillage
Schema Registry (Confluent / Apicurio) pour le streaming ; tests dbt ou SQLMesh pour les contrats d'entrepôt ; Soda ou Great Expectations pour la validation ; OpenLineage pour l'impact en aval ; PagerDuty ou Opsgenie pour la page réelle quand un contrat est rompu.
Ressources connexes
Une architecture qui combine l'économie du lac de données (stockage objet, formats ouverts) avec les garanties d'entrepôt (transactions ACID, évolution de schéma, voyage dans le temps) afin que l'analytique, le retrieval et l'IA convergent sur un seul substrat.
Contrats, validation, lignage, fraîcheur et propriété pour des données qu'un agent peut utiliser sans risque — pas un projet de nettoyage ponctuel, mais une discipline opérationnelle continue.
La carte propriétaire des systèmes opérationnels d'une organisation — schémas, documents, code, tickets, événements, propriétaires et permissions — reliés par les relations dont un agent a besoin pour retrouver, citer et agir.