Substrat de données

Base de connaissance prête pour les LLM

Une base de connaissance d'entreprise bâtie pour qu'un système IA puisse en citer de vraies réponses — sourcée depuis documents, tickets, code, conversations et données structurées ; découpée, embeddée, permissionnée, évaluée et gardée fraîche sur AWS.

Principe directeur

L'IA de production n'est pas un prompt. C'est un système fait de contexte, d'outils, de permissions, de traces, d'évaluations et de boucles de rétroaction.

Ce que « prête pour les LLM » signifie

Une base est prête pour les LLM quand un agent qui y fait du retrieval peut répondre à une vraie question, attribuer la réponse à un fragment précis, respecter les permissions de l'utilisateur et être mesuré sur la qualité contre un vrai jeu d'évaluations. Cela exige plus que téléverser des documents dans un magasin vectoriel : contrats de source, découpage ajusté au type de contenu, politiques de rafraîchissement, retrieval hybride, reranking, citations, propagation des permissions et boucle de rétroaction.

  • Vraies réponses avec citations vérifiables
  • Permissions appliquées à la requête
  • Fraîcheur suivie par source
  • Qualité mesurée contre un vrai jeu d'évaluations

Sources à partir desquelles nous bâtissons

Documents (SharePoint, docs internes dans S3, sites de documentation produit), tickets de soutien et bases de connaissance existantes, code et docs d'ingénierie, données structurées issues de tables analytiques et de magasins opérationnels, transcriptions de conversations approuvées depuis les canaux que vous autorisez. Chaque source reçoit propriétaire, cible de fraîcheur, classification et règle de rétention avant d'entrer dans le pipeline.

Comment ça tourne sur AWS

S3 est la source de vérité pour le contenu brut et traité avec versionnage et politiques de cycle de vie. AWS Glue ou Lambda gère l'ingestion, le découpage et la redaction PII. Amazon Bedrock fournit les embeddings (Titan ou Cohere via Bedrock) et les modèles de raisonnement qui répondent aux questions. OpenSearch Serverless héberge les index vectoriels aux côtés d'une branche BM25 pour le retrieval hybride. Bedrock Knowledge Bases est l'option managée quand cela convient ; un pipeline sur mesure sur les mêmes primitives — S3, Bedrock, OpenSearch — couvre les cas où non. Lake Formation et IAM appliquent la frontière de permission. KMS chiffre au repos. PrivateLink garde le trafic d'inférence dans le VPC quand la classe de données l'exige.

  • Source de vérité S3, ingestion AWS Glue / Lambda
  • Embeddings Bedrock (Titan, Cohere via Bedrock)
  • Retrieval hybride OpenSearch Serverless vectoriel + BM25
  • Bedrock Knowledge Bases quand cela convient ; pipeline sur mesure sinon
  • Permissions Lake Formation + IAM, KMS au repos, PrivateLink en transit

Ce qui est évalué

Un jeu d'évaluations est bâti à partir de vraies questions — tirées des tickets, des journaux de conversation et de la recherche utilisateur — étiquetées avec la bonne réponse et les fragments de citation qui devraient la soutenir. Le harnais exécute retrieval et réponse contre le jeu à chaque changement de découpage, d'embeddings, de poids de retrieval ou de profondeur de rerank. La qualité se mesure : les bons fragments sont-ils revenus, la réponse les a-t-elle cités correctement, l'agent a-t-il refusé quand aucun fragment ne soutenait l'affirmation. Les portes de promotion bloquent les régressions.

Boucle fermée avec le travail

Les fils résolus de l'intelligence conversationnelle proposent des brouillons d'entrées ; les propriétaires de source révisent et approuvent ; la base capte le changement au prochain rafraîchissement ; retrieval et évaluations réexécutent sur le corpus mis à jour. La fraîcheur est une métrique suivie, pas une supposition, et la base grandit avec le travail que l'organisation fait réellement au lieu d'attendre qu'on écrive une page wiki.

Ce que ce n'est pas

Pas un magasin vectoriel. Pas un chatbot. Pas une migration de contenu ponctuelle. La base de connaissance est le substrat ; l'agent est la surface ; le jeu d'évaluations est le contrat qui les garde honnêtes.

Ressources connexes