Inferência

Tokenização

Tokenização é o processo de dividir texto bruto em unidades discretas chamadas tokens — tipicamente fragmentos de subpalavra — que um modelo de linguagem codifica numericamente e processa. Um token representa aproximadamente 4 caracteres em inglês; a maioria dos LLMs modernos utiliza vocabulários de subpalavra de 32.000–200.000 entradas.

Tokenização é a etapa de pré-processamento que converte uma string de texto em uma sequência de IDs inteiros extraídos de um vocabulário fixo. Cada ID corresponde a um token — que pode ser uma palavra, um fragmento de subpalavra, um único caractere ou espaço em branco — dependendo do design do tokenizador. Os tamanhos de vocabulário dos tokenizadores modernos comuns variam de aproximadamente 32.000 (tokenizador SentencePiece do LLaMA 2) a aproximadamente 100.000–200.000 (vocabulário cl100k tiktoken do GPT-4o).

A abordagem dominante desde aproximadamente 2018 é Byte-Pair Encoding (BPE), no qual pares de caracteres frequentes são iterativamente mesclados em unidades de subpalavra durante uma fase de treinamento em um grande corpus de texto, produzindo um vocabulário que balanceia a cobertura de palavras raras com a codificação eficiente das comuns. As alternativas incluem WordPiece (utilizado em modelos da família BERT) e Unigram LM (utilizado em SentencePiece, que sustenta LLaMA e modelos Mistral). O vocabulário do tokenizador é fixado antes do próprio modelo de linguagem ser treinado. No tempo de inferência, o texto de entrada é codificado em uma sequência de IDs de token, e os IDs de saída do modelo são decodificados de volta para texto legível.

Tokenização determina diretamente o custo do sistema e o comportamento do modelo: preços de API são denominados em tokens, limites de janela de contexto são expressos em tokens, e modelos operam puramente em IDs inteiros — eles nunca veem caracteres brutos. Idiomas com grandes conjuntos de caracteres (chinês, japonês) ou morfologia altamente aglutinativa (finlandês, turco) são codificados menos eficientemente que inglês, significando que conteúdo semântico equivalente pode consumir de duas a quatro vezes mais tokens e, portanto, proporcionalmente mais computação e custo.

A partir de 2026, a maioria dos modelos de fronteira — GPT-4o, Claude 3.5/4, Gemini 2.0 — utilizam tokenizadores no estilo BPE com vocabulários na faixa de 100k–200k. Pesquisa em arquiteturas livre de tokenizador e no nível de byte (MegaByte, MEGALODON) continua, visando eliminar completamente o gargalo de tokenização, mas tokenização de subpalavra permanece a abordagem de produção dominante através de modelos tanto de peso aberto quanto proprietários.

Exemplo

Quando um usuário envia a frase "Tokenization is fundamental" para o GPT-4o, o tokenizador a converte em aproximadamente 4–5 IDs inteiros antes de qualquer computação neural começar; os IDs de saída do modelo são então decodificados de volta para texto legível um token por vez.

Termos relacionados

Últimas notícias sobre o tema

← Glossário