Techniques et méthodes

Chunking

Le chunking est le processus de division des documents source en segments de texte plus petits avant embedding et stockage dans une base de données vectorielle, permettant une récupération efficace et précise dans les systèmes RAG et de recherche.

Le chunking est le processus de division de grands documents source en segments de texte plus petits et autonomes — appelés chunks — avant leur conversion en embeddings vectoriels et stockage dans une base de données vectorielle. Parce que les modèles d'embedding produisent un seul vecteur de taille fixe par entrée et que les fenêtres de contexte du modèle de langage ont des limites de tokens, l'embedding d'un document long entier réduit le sens granulaire à une seule représentation, rendant la récupération précise impraticable sans segmentation préalable.

Le choix de la stratégie de chunking affecte significativement la qualité de la récupération. Le chunking de taille fixe divise le texte à un nombre de tokens défini, généralement 256–1024 tokens, souvent avec un chevauchement glissant de 10–20 % pour préserver le contexte entre les limites des segments. Le chunking basé sur les phrases et les paragraphes respecte les unités linguistiques naturelles. Le chunking sémantique identifie les limites de changement de sujet dans le texte et le divise là plutôt qu'à des nombres de caractères arbitraires. Le chunking hiérarchique stocke les représentations granulaires et grossières du même contenu, permettant la récupération à plusieurs niveaux de granularité. Les frameworks comme LangChain et LlamaIndex exposent ces stratégies comme des options configurables avec des paramètres ajustables.

La taille du chunk crée un compromis direct : les chunks plus petits offrent une précision de récupération plus élevée — le texte retourné est fortement pertinent — mais peuvent omettre le contexte environnant nécessaire ; les chunks plus grands fournissent plus de contexte mais diluent les scores de pertinence quand seule une partie du chunk correspond à la requête. Cela rend la taille du chunk et le chevauchement des hyperparamètres ajustables que les praticiens optimisent empiriquement pour chaque corpus et tâche.

À partir de 2026, le chunking au niveau des propositions — où chaque chunk représente une seule affirmation factuelle extraite de la source — a montré des performances fortes sur les benchmarks de récupération. Les outils pour l'optimisation automatique du chunking émergent comme partie des pipelines d'évaluation RAG. La disponibilité de modèles avec des fenêtres de contexte d'un million de tokens ou plus n'a pas éliminé le chunking, car les segments focalisés et sémantiquement cohérents surpassent toujours la récupération complète de document indifférenciée pour la plupart des types de requêtes.

Exemple

Une entreprise de technologie juridique divise les PDF de contrats de 500 pages en chunks de 512 tokens avec un chevauchement de 50 tokens, intègre chaque chunk avec un modèle de text-embedding, et les stocke dans Pinecone pour que les avocats puissent récupérer la clause spécifique la plus pertinente pour une requête donnée.

Termes liés

RAG (Génération Augmentée par Récupération)Base de données vectorielle Context Window Embedding

← Glossaire