Substrat de données

Architecture lakehouse

Une architecture qui combine l'économie du lac de données (stockage objet, formats ouverts) avec les garanties d'entrepôt (transactions ACID, évolution de schéma, voyage dans le temps) afin que l'analytique, le retrieval et l'IA convergent sur un seul substrat.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Ce que c'est

Le terme, popularisé par Databricks, décrit une pile où des fichiers Parquet dans le stockage objet (S3, GCS, Azure Blob) sont gérés par un format de table ouvert — Apache Iceberg, Delta Lake ou Apache Hudi — qui ajoute transactions, évolution de schéma, évolution de partitions, voyage dans le temps et écritures concurrentes. Le résultat a le coût et l'ouverture d'un lac avec les garanties de justesse d'un entrepôt.

  • Stockage objet + Parquet pour le coût et l'ouverture
  • Iceberg, Delta ou Hudi pour ACID et évolution de schéma
  • Calcul interchangeable : Spark, Trino, DuckDB, Snowflake, BigQuery
  • Voyage temporel et élagage de partitions pour la performance

Pourquoi c'est important pour l'IA

Pipelines de retrieval, tableaux de bord analytiques et entraînement ML lisent les mêmes tables. Il n'y a plus de « copie entrepôt » et de « copie IA » qui dérivent. Quand un chiffre du tableau de bord exécutif diffère de ce que cite l'agent, le désaccord est un vrai bug, pas un retard de synchro.

Ce que nous évaluons

Le choix du format de table dépend de votre pile existante et de vos patrons d'écriture : Iceberg a le plus large support moteur et la spec la plus propre ; Delta est le choix évident sur Databricks ; Hudi brille sur les upserts streaming avec CDC fréquent. Les mandats commencent souvent par un petit pilote de migration pour faire surface les vraies différences opérationnelles avant l'engagement.

Ressources connexes