Architecture lakehouse
Une architecture qui combine l'économie du lac de données (stockage objet, formats ouverts) avec les garanties d'entrepôt (transactions ACID, évolution de schéma, voyage dans le temps) afin que l'analytique, le retrieval et l'IA convergent sur un seul substrat.
L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.
Ce que c'est
Le terme, popularisé par Databricks, décrit une pile où des fichiers Parquet dans le stockage objet (S3, GCS, Azure Blob) sont gérés par un format de table ouvert — Apache Iceberg, Delta Lake ou Apache Hudi — qui ajoute transactions, évolution de schéma, évolution de partitions, voyage dans le temps et écritures concurrentes. Le résultat a le coût et l'ouverture d'un lac avec les garanties de justesse d'un entrepôt.
- Stockage objet + Parquet pour le coût et l'ouverture
- Iceberg, Delta ou Hudi pour ACID et évolution de schéma
- Calcul interchangeable : Spark, Trino, DuckDB, Snowflake, BigQuery
- Voyage temporel et élagage de partitions pour la performance
Pourquoi c'est important pour l'IA
Pipelines de retrieval, tableaux de bord analytiques et entraînement ML lisent les mêmes tables. Il n'y a plus de « copie entrepôt » et de « copie IA » qui dérivent. Quand un chiffre du tableau de bord exécutif diffère de ce que cite l'agent, le désaccord est un vrai bug, pas un retard de synchro.
Ce que nous évaluons
Le choix du format de table dépend de votre pile existante et de vos patrons d'écriture : Iceberg a le plus large support moteur et la spec la plus propre ; Delta est le choix évident sur Databricks ; Hudi brille sur les upserts streaming avec CDC fréquent. Les mandats commencent souvent par un petit pilote de migration pour faire surface les vraies différences opérationnelles avant l'engagement.
Ressources connexes
Accords explicites entre une source de données et ses consommateurs — forme, fraîcheur, propriétaire et budget d'erreur — qui rendent les pannes de pipeline attribuables au lieu de mystérieuses.
La carte propriétaire des systèmes opérationnels d'une organisation — schémas, documents, code, tickets, événements, propriétaires et permissions — reliés par les relations dont un agent a besoin pour retrouver, citer et agir.
Contrats, validation, lignage, fraîcheur et propriété pour des données qu'un agent peut utiliser sans risque — pas un projet de nettoyage ponctuel, mais une discipline opérationnelle continue.