Как работает выбор токенов в нейросетях: logits, температура и top-p
Нейросеть выбирает следующее слово через logits и softmax. Температура управляет случайностью: низкая даёт точные ответы, высокая — креативные. Top-p фильтрует

Когда языковая модель генерирует текст, перед ней стоит фундаментальная задача — выбрать следующее слово из тысяч кандидатов. Этот выбор не случаен, а управляется вероятностными механизмами. Понимание logits, температуры и top-p — ключ к контролю поведения LLM.
Что такое logits и softmax
Нейросеть вычисляет для каждого возможного токена числовую оценку — logit. Это необработанный сигнал из последнего слоя сети. Слово "креативность" может получить logit 5.2, а "телефон" — 2.1. Функция softmax превращает эти числа в вероятности (от 0 до 1), которые в сумме дают 1. Представьте: модель обрабатывает "машинное обучение это". Она вычисляет logits для всех слов словаря. После softmax получается распределение: "наука" = 35%, "искусство" = 8%, "пингвин" = 0.001%. Модель случайно выбирает из этого распределения — чаще выбирает вероятные варианты, редко — маловероятные.
Температура — регулятор поведения Температура — это множитель для logits перед softmax.
Математика простая, но эффект мощный: T < 1 (например, 0.3) — выводит модель на "ледяную" сторону. Распределение заостряется, маловероятные варианты получают ничтожные вероятности. Модель выбирает почти детерминированно, ответы предсказуемы и точны. Идеально для кода, фактов, инструкций. T = 1 — стандартное поведение, logits используются как есть * T > 1 (например, 1.5–2.0) — выводит на "огненную" сторону. Распределение становится более равномерным, маловероятные варианты получают шанс. Модель выбирает более случайно. Идеально для творческого письма, но рискует генерировать ошибки или галлюцинации. Высокая температура делает модель авантюристкой, низкая — консервативной.
Top-P — умная выборка
Top-p (nucleus sampling) решает проблему: как не дать модели сказать полную ерунду, но оставить ей свободу? Алгоритм сортирует токены по вероятности и берёт столько топ-токенов, пока их совокупная вероятность не достигнет p (обычно 0.9). Пример: если top-p = 0.9, а распределение такое: - "наука" = 40% - "путь" = 30% - "знание" = 15% - "свобода" = 10% - "пинг вин" = 5% Модель возьмёт первые четыре варианта (40+30+15+10=95%), а "пингвина" отбросит. Top-p динамичен: в одном контексте может отобрать 5 вариантов, в другом — 200.
Что это значит Эти три параметра — вовсе не магия, а инструменты контроля.
Разработчик выбирает температуру и top-p в зависимости от задачи: генерация кода требует низкой температуры (надежность важнее творчества), а написание рассказа требует высокой (разнообразие). Понимание этих механизмов превращает работу с LLM из чёрного ящика в инженерную задачу.