Substrat de données

Architecture lakehouse

Une architecture qui combine l'économie du lac de données (stockage objet, formats ouverts) avec les garanties d'entrepôt (transactions ACID, évolution de schéma, voyage dans le temps) afin que l'analytique, le retrieval et l'IA convergent sur un seul substrat.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Ce que c'est

Le terme, popularisé par Databricks, décrit une pile où des fichiers Parquet dans le stockage objet (S3, GCS, Azure Blob) sont gérés par un format de table ouvert — Apache Iceberg, Delta Lake ou Apache Hudi — qui ajoute transactions, évolution de schéma, évolution de partitions, voyage dans le temps et écritures concurrentes. Le résultat a le coût et l'ouverture d'un lac avec les garanties de justesse d'un entrepôt.

Stockage objet + Parquet pour le coût et l'ouverture
Iceberg, Delta ou Hudi pour ACID et évolution de schéma
Calcul interchangeable : Spark, Trino, DuckDB, Snowflake, BigQuery
Voyage temporel et élagage de partitions pour la performance

Pourquoi c'est important pour l'IA

Pipelines de retrieval, tableaux de bord analytiques et entraînement ML lisent les mêmes tables. Il n'y a plus de « copie entrepôt » et de « copie IA » qui dérivent. Quand un chiffre du tableau de bord exécutif diffère de ce que cite l'agent, le désaccord est un vrai bug, pas un retard de synchro.

Ce que nous évaluons

Le choix du format de table dépend de votre pile existante et de vos patrons d'écriture : Iceberg a le plus large support moteur et la spec la plus propre ; Delta est le choix évident sur Databricks ; Hudi brille sur les upserts streaming avec CDC fréquent. Les mandats commencent souvent par un petit pilote de migration pour faire surface les vraies différences opérationnelles avant l'engagement.

Ressources connexes

Contrats d'ingestion

Accords explicites entre une source de données et ses consommateurs — forme, fraîcheur, propriétaire et budget d'erreur — qui rendent les pannes de pipeline attribuables au lieu de mystérieuses.

Graphe source

La carte propriétaire des systèmes opérationnels d'une organisation — schémas, documents, code, tickets, événements, propriétaires et permissions — reliés par les relations dont un agent a besoin pour retrouver, citer et agir.

Qualité des données

Contrats, validation, lignage, fraîcheur et propriété pour des données qu'un agent peut utiliser sans risque — pas un projet de nettoyage ponctuel, mais une discipline opérationnelle continue.