Técnicas e métodos

Chunking

Chunking é o processo de dividir documentos de origem em segmentos de texto menores antes de embutir e armazenar em um vector database, possibilitando recuperação eficiente e precisa em sistemas RAG e de busca.

Chunking é o processo de dividir grandes documentos de origem em segmentos de texto menores e auto-contidos — chamados chunks — antes de convertê-los em embeddings vetoriais e armazená-los em um vector database. Como modelos de embedding produzem um único vetor de tamanho fixo por entrada e janelas de contexto de modelos de linguagem têm limites de tokens, embutir um documento longo inteiro colapsa significado de granularidade fina em uma única representação, tornando recuperação precisa impraticável sem segmentação prévia.

A escolha da estratégia de chunking afeta significativamente a qualidade da recuperação. Chunking de tamanho fixo divide texto em uma contagem de token definida, tipicamente 256–1024 tokens, frequentemente com uma sobreposição deslizante de 10–20% para preservar contexto através de limites de segmento. Chunking baseado em sentença e parágrafo respeita unidades linguísticas naturais. Chunking semântico identifica limites de mudança de tópico dentro de texto e divide lá em vez de em contagens de caracteres arbitrárias. Chunking hierárquico armazena representações de granularidade fina e grosseira do mesmo conteúdo, possibilitando recuperação em múltiplos níveis de granularidade. Frameworks como LangChain e LlamaIndex expõem essas estratégias como opções configuráveis com parâmetros ajustáveis.

Tamanho de chunk cria um trade-off direto: chunks menores produzem precisão de recuperação mais alta — texto retornado é bem relevante — mas podem omitir contexto circundante necessário; chunks maiores fornecem mais contexto mas diluem pontuações de relevância quando apenas parte do chunk corresponde à consulta. Isso torna tamanho de chunk e sobreposição hiperparâmetros ajustáveis que praticantes otimizam empiricamente para cada corpus e tarefa.

Em 2026, chunking de nível de proposição — onde cada chunk representa uma única afirmação factual extraída da fonte — mostrou desempenho forte em benchmarks de recuperação. Ferramentas para otimização automática de chunking estão surgindo como parte dos pipelines de avaliação de RAG. A disponibilidade de modelos com janelas de contexto de um milhão ou mais tokens não eliminou chunking, porque segmentos focados e semanticamente coerentes ainda superam recuperação de documento completo indiferenciada para a maioria dos tipos de consulta.

Exemplo

Uma empresa de legal tech divide PDFs de contratos de 500 páginas em chunks de 512 tokens com uma sobreposição de 50 tokens, embutir cada chunk com um modelo text-embedding e os armazena no Pinecone para que advogados possam recuperar a cláusula específica mais relevante para uma consulta dada.

Termos relacionados

RAG (Retrieval-Augmented Generation)Vector Database Janela de Contexto Embedding

← Glossário