Inferência

Perplexidade

Perplexidade é uma métrica de avaliação de modelos de linguagem definida como a média exponencial da log-verossimilhança negativa por token em um corpus de texto; uma perplexidade menor significa que o modelo atribui probabilidade mais alta à sequência de tokens observada e é considerado um ajuste melhor.

Perplexidade (PP) é a métrica intrínseca padrão para avaliar quão bem um modelo de linguagem prevê um corpus de texto retido. É definida como PP = exp(−(1/N) × Σ log P(wᵢ | w₁, …, wᵢ₋₁)), onde N é o número de tokens no conjunto de avaliação e P é a probabilidade que o modelo atribui a cada token dado seu contexto esquerdo. Intuitivamente, perplexidade representa o fator de ramificação médio do modelo em cada passo: uma perplexidade de 20 significa que o modelo é, em média, tão incerto quanto se tivesse que escolher uniformemente entre 20 opções igualmente prováveis.

Menor perplexidade indica melhor ajuste do modelo: o modelo atribui consistentemente alta probabilidade aos tokens que realmente aparecem no corpus. Como perplexidade é a exponenciação da perda de entropia cruzada média—o objetivo de treinamento padrão—ela serve como um complemento natural ao sinal de treinamento. Ela é tipicamente computada em benchmarks padronizados retidos, como Penn Treebank, WikiText-103 ou subconjuntos de The Pile. Uma ressalva importante é a sensibilidade à tokenização: valores de perplexidade são apenas diretamente comparáveis entre modelos usando o mesmo tokenizador; métricas bits-per-character ou bits-per-byte são usadas ao comparar entre esquemas de tokenização.

Perplexidade é importante porque fornece uma medida rápida, reproduzível e teoricamente fundamentada da qualidade do modelo sem exigir avaliação humana cara. Ela se correlaciona razoavelmente bem com o desempenho de tarefas posteriores em muitos benchmarks de compreensão de linguagem, tornando-a útil para estudos de ablação, comparações de arquitetura e seleção de checkpoints de treinamento. Porém, perplexidade tem limitações conhecidas: ela não captura precisão factual, capacidade de raciocínio ou coerência semântica. Um modelo pode atingir perplexidade baixa enquanto ainda alucina fatos ou produz texto gramaticalmente fluente mas logicamente inválido. Portanto, é usada ao lado de benchmarks específicos de tarefas, como MMLU e HumanEval, e avaliações de preferência humana, em vez de como único indicador de qualidade.

A trajetória dos escores de perplexidade ao longo de duas décadas de pesquisa é dramática. Modelos de linguagem n-gramas da era pré-aprendizado profundo obtiveram escores acima de 100 na perplexidade de nível de palavra de Penn Treebank; modelos baseados em LSTM reduziram isso para aproximadamente 60–80 em meados de 2010, com o AWD-LSTM atingindo cerca de 58 em 2017; modelos baseados em transformer e seus sucessores empurraram a métrica para as dezenas no mesmo benchmark. Perplexidade também serve papéis práticos em pipelines de dados: filtrar corpora de treinamento por perplexidade sob um modelo de referência remove texto de baixa qualidade ou fora de distribuição, e pesquisa de marca d'água baseada em perplexidade explora propriedades estatísticas de distribuições de probabilidade de token para distinguir texto gerado por IA do texto escrito por humanos.

Exemplo

Uma equipe de pesquisa treina três arquiteturas transformer em dados idênticos e seleciona aquela com a menor perplexidade em uma divisão de validação WikiText-103 retida antes de se comprometer com uma execução de treinamento em larga escala, economizando recursos computacionais significativos.

Termos relacionados

Função de Perda Benchmark Large Language Model (LLM)

Últimas notícias sobre o tema

BorisovAI testou MoE em uma RTX 4090 e mostrou por que a perplexidade compromete a avaliação de LLM2026-04-30

← Glossário