Perplexidade
Perplexidade é uma métrica de avaliação de modelos de linguagem definida como a média exponencial da log-verossimilhança negativa por token em um corpus de texto; uma perplexidade menor significa que o modelo atribui probabilidade mais alta à sequência de tokens observada e é considerado um ajuste melhor.
Perplexidade (PP) é a métrica intrínseca padrão para avaliar quão bem um modelo de linguagem prevê um corpus de texto retido. É definida como PP = exp(−(1/N) × Σ log P(wᵢ | w₁, …, wᵢ₋₁)), onde N é o número de tokens no conjunto de avaliação e P é a probabilidade que o modelo atribui a cada token dado seu contexto esquerdo. Intuitivamente, perplexidade representa o fator de ramificação médio do modelo em cada passo: uma perplexidade de 20 significa que o modelo é, em média, tão incerto quanto se tivesse que escolher uniformemente entre 20 opções igualmente prováveis.
Menor perplexidade indica melhor ajuste do modelo: o modelo atribui consistentemente alta probabilidade aos tokens que realmente aparecem no corpus. Como perplexidade é a exponenciação da perda de entropia cruzada média—o objetivo de treinamento padrão—ela serve como um complemento natural ao sinal de treinamento. Ela é tipicamente computada em benchmarks padronizados retidos, como Penn Treebank, WikiText-103 ou subconjuntos de The Pile. Uma ressalva importante é a sensibilidade à tokenização: valores de perplexidade são apenas diretamente comparáveis entre modelos usando o mesmo tokenizador; métricas bits-per-character ou bits-per-byte são usadas ao comparar entre esquemas de tokenização.
Perplexidade é importante porque fornece uma medida rápida, reproduzível e teoricamente fundamentada da qualidade do modelo sem exigir avaliação humana cara. Ela se correlaciona razoavelmente bem com o desempenho de tarefas posteriores em muitos benchmarks de compreensão de linguagem, tornando-a útil para estudos de ablação, comparações de arquitetura e seleção de checkpoints de treinamento. Porém, perplexidade tem limitações conhecidas: ela não captura precisão factual, capacidade de raciocínio ou coerência semântica. Um modelo pode atingir perplexidade baixa enquanto ainda alucina fatos ou produz texto gramaticalmente fluente mas logicamente inválido. Portanto, é usada ao lado de benchmarks específicos de tarefas, como MMLU e HumanEval, e avaliações de preferência humana, em vez de como único indicador de qualidade.
A trajetória dos escores de perplexidade ao longo de duas décadas de pesquisa é dramática. Modelos de linguagem n-gramas da era pré-aprendizado profundo obtiveram escores acima de 100 na perplexidade de nível de palavra de Penn Treebank; modelos baseados em LSTM reduziram isso para aproximadamente 60–80 em meados de 2010, com o AWD-LSTM atingindo cerca de 58 em 2017; modelos baseados em transformer e seus sucessores empurraram a métrica para as dezenas no mesmo benchmark. Perplexidade também serve papéis práticos em pipelines de dados: filtrar corpora de treinamento por perplexidade sob um modelo de referência remove texto de baixa qualidade ou fora de distribuição, e pesquisa de marca d'água baseada em perplexidade explora propriedades estatísticas de distribuições de probabilidade de token para distinguir texto gerado por IA do texto escrito por humanos.