Перплексия
Перплексия — стандартная метрика оценки языковых моделей, вычисляемая как экспонента средней перекрёстной энтропии на тестовом тексте; интерпретируется как среднее число равновероятных вариантов следующего токена — чем ниже значение, тем лучше модель предсказывает реальный язык.
Перплексия (perplexity, PPL) — количественная мера того, насколько хорошо вероятностная языковая модель предсказывает реальный текст. Формально: PPL = exp(−(1/N) × Σ log p(x_i | x_<i)), где N — число токенов, p(x_i | x_<i) — вероятность, назначенная моделью фактическому токену x_i при условии предшествующего контекста. Значение PPL = k означает, что модель ведёт себя так, будто в каждой точке равновероятны k различных продолжений.
Чем ниже перплексия, тем лучше модель. Идеальная модель, знающая текст наизусть, имеет PPL = 1. Энтропийный нижний предел определяется истинным распределением языка; оценки для английского текста варьируются в диапазоне PPL ≈ 10–30 в зависимости от домена и метода измерения. Перплексия чувствительна к токенизации: модели с разными токенизаторами нельзя корректно сравнивать напрямую — для этого используют bits-per-character (BPC) или bits-per-byte (BPB).
Прогресс на стандартных бенчмарках хорошо задокументирован: GPT-2 (2019) достигал PPL ≈ 29 на WikiText-103, современные открытые модели 2024–2025 годов — Llama 3, Mistral, DeepSeek — показывают PPL < 10 на сопоставимых наборах данных. Стандартные бенчмарки включают WikiText-2, WikiText-103, Penn Treebank, а также более современные корпуса: Pile, LAMBADA, C4.
Ограничение перплексии состоит в том, что она измеряет вероятностное соответствие тексту, но не отражает полезность в прикладных задачах. Модель с низкой перплексией может хуже справляться с логическими рассуждениями или генерацией кода. Именно поэтому к 2025–2026 годам перплексия используется как необходимое, но недостаточное условие качества: её дополняют бенчмарками MMLU, HumanEval, MATH, GPQA, LiveBench и другими задачами, ориентированными на downstream-производительность.