Inferência

Token

Um token é a unidade básica de texto que um modelo de linguagem processa, tipicamente uma palavra, fragmento de subpalavra ou marca de pontuação. Em prosa inglesa comum, uma palavra corresponde aproximadamente a 1,3 tokens sob vocabulários de subpalavra amplamente utilizados.

Um token é a unidade atômica em que o texto é decomposto antes de ser alimentado em um modelo de linguagem. A maioria dos modelos modernos utiliza tokenização por subpalavra, dividindo o texto nem no nível de caracteres nem estritamente em limites de palavras, mas em segmentos que balanceiam o tamanho do vocabulário com o comprimento da sequência. Os algoritmos mais comuns são Byte-Pair Encoding (BPE, utilizado pela família GPT), WordPiece (utilizado por BERT e seus derivados) e SentencePiece (utilizado por LLaMA, T5 e muitos modelos multilíngues). Os vocabulários tipicamente contêm 32.000–200.000 tipos de token; o tokenizador cl100k_base do GPT-4 contém aproximadamente 100.000.

Na prática, palavras inglesas de alta frequência como "the" ou "model" são geralmente tokens únicos, enquanto palavras raras, termos técnicos e a maioria do texto não-inglês se divide em múltiplos tokens. Código e URLs também se tokenizam menos eficientemente que prosa. O tokenizador é treinado separadamente do modelo em um grande corpus representativo, e seu vocabulário é fixado antes do treinamento do modelo começar. No tempo de inferência, o texto bruto é primeiro convertido em uma sequência de IDs de token inteiros, que são usados para buscar vetores de embedding densos que as camadas do modelo processam.

Tokens importam por três razões práticas. Primeiro, janelas de contexto — a sequência máxima que um modelo pode processar por vez — são medidas em tokens; a partir de 2025, modelos líderes variavam de 128.000 tokens (GPT-4o) a 200.000 (Claude 3.5 Sonnet) a mais de um milhão (Gemini 1.5 Pro), com expansão contínua em andamento. Segundo, APIs de inferência em nuvem cobram por token consumido e gerado, tornando a eficiência de tokens um driver de custo direto. Terceiro, a atenção de transformer padrão escala quadraticamente com o comprimento da sequência em tokens, tornando contextos mais longos computacionalmente caros e motivando pesquisa em variantes de atenção linear e esparsa.

A partir de 2026, a abstração de token se estendeu além de texto para modelos multimodais. Imagens são tipicamente codificadas como um número fixo de tokens visuais (comumente 256–1.024 por imagem) concatenados com tokens de texto antes do processamento por um transformer unificado. Entradas de áudio e vídeo seguem pipelines análogos de quantização-então-tokenização, tornando o token a moeda universal através de arquiteturas de IA multimodal.

Exemplo

Um contrato legal de 10 páginas enviado a um assistente de IA pode conter aproximadamente 5.000 tokens; a uma taxa típica de API de alguns dólares por milhão de tokens de entrada, processar esse documento custa aproximadamente alguns centavos em taxas de inferência.

Termos relacionados

Tokenização Janela de Contexto Inferência Token Economics (API Pricing)

Últimas notícias sobre o tema

Together AI lança MiniMax M3 com contexto de 1 milhão de tokens e suporte multimodal2026-06-30 Skill Caveman com 75 mil estrelas promete cortar o uso de tokens no Copilot em 75%2026-06-30 A Liquid AI lançou o LFM2.5-230M: 213 tokens/s no Galaxy S25 e suporte a llama.cpp2026-06-28 graphlens-mcp constrói um grafo de código com um comando e reduz o uso de tokens em 10–23x2026-06-28 Z.ai lança GLM-5.2: um milhão real de tokens e dois níveis de raciocínio profundo2026-06-15

← Glossário