Habr AI→ оригинал

Почему ChatGPT и другие LLM стали намного сильнее простого «предсказания слова»

LLM по-прежнему предсказывают следующий токен, но именно поверх этого механизма выросли ключевые улучшения последних лет. Модели научились говорить «не знаю», в

Почему ChatGPT и другие LLM стали намного сильнее простого «предсказания слова»
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Большие языковые модели по-прежнему строят ответ как предсказание следующего токена, но именно этот простой на вид механизм оказался гораздо продуктивнее, чем ожидали даже многие исследователи. Резкий рост качества LLM объясняется не только масштабом, а тем, как поверх базовой модели добавили самокритику, инструменты и многошаговое рассуждение.

Откуда был скепсис

Еще в 2024 году популярное объяснение звучало так: LLM — это гигантский автодополнитель текста, который не понимает смысл, а лишь продолжает последовательность токенов. Из этого делали прямой вывод: если основа настолько примитивна, то и потолок качества у таких систем должен быть низким. Галлюцинации, шаблонные ответы и плохая работа с задачами, где нужны свежие данные, только укрепляли этот взгляд.

Типичный пример — вопрос с конкретикой из реального мира, например что дешевле: лететь из Лондона в Барселону или ехать поездом в следующую пятницу. Ранние модели отвечали общими словами: самолет обычно быстрее и дешевле, поезд комфортнее и экологичнее. Такой ответ мог звучать правдоподобно, но не помогал принять решение.

Именно поэтому многим казалось, что одного масштабирования тут недостаточно: нужен был не более крупный автокомплит, а другой уровень поведения.

Что добавили сверху

Первый важный слой поверх базовой модели — умение распознавать собственную неопределенность. Вместо уверенной выдумки современные LLM все чаще умеют сказать, что у них нет доступа к данным в реальном времени, не хватает контекста или лучше обратиться к внешнему источнику. Это кажется косметическим улучшением, но на деле резко повышает полезность: модель перестает маскировать пробелы знанием и начинает корректно обозначать границы своей компетенции.

Второй слой — вызов инструментов. С точки зрения архитектуры модель по-прежнему генерирует токены, но теперь отдельные токены среда интерпретирует как команды: сделать web-поиск, сходить в API, открыть базу данных или запустить небольшой скрипт. В результате LLM больше не обязана помнить все внутри весов: она может получить недостающие факты прямо во время ответа и уже на их основе продолжить рассуждение.

  • Проверить свежие цены, погоду или расписание через web-поиск Сходить в корпоративную базу знаний или внешний API Запустить Python-скрипт для расчетов и сравнения вариантов * Повторить запрос, если первые результаты выглядят устаревшими или противоречивыми ## Почему это сработало Но самый неожиданный скачок качества пришел не только от инструментов, а от обучения рассуждению. Сначала это выглядело как промптинг в стиле «думай пошагово», который помогал модели аккуратнее разбирать задачу. Затем в игру вошло обучение с подкреплением, а позже — подходы с верифицируемой наградой, где правильность ответа по математике или коду можно проверить автоматически. Модель начала не просто выдавать ответ, а чаще выбирать траектории, которые действительно ведут к верному решению.
«Обучение с подкреплением всегда нацелено на результат.

В данном случае таким результатом стали рассуждения». Отсюда выросла еще одна идея: если модель уже умеет мыслить пошагово, ей можно дать больше времени на вывод. Дополнительные токены во время ответа превращаются не в пустую болтовню, а в перебор альтернатив, самопроверку и откат от неудачных гипотез.

По сути, часть интеллекта теперь определяется не только тем, что было запомнено на этапе обучения, но и тем, сколько вычислений система тратит в момент запроса. Именно связка из рассуждения и инструментов делает современные LLM настолько сильнее ранних версий. В задаче про поезд и самолет хорошая модель сначала понимает, каких данных ей не хватает, затем ищет цены, сравнивает пересадки и длительность маршрута, при необходимости считает итог через код, а после перепроверяет, не устарели ли результаты.

Это уже не просто красивый текстовый ответ, а рабочий контур принятия решений, построенный поверх того же механизма предсказания следующего токена.

Что это значит

Успех LLM теперь объясняется не магией и не одним только масштабированием, а инженерной надстройкой над базовым принципом. Модели все еще могут ошибаться, зацикливаться и галлюцинировать, но сочетание самокритики, инструментов и RL-рассуждения превратило «автодополнение текста» в систему, которая реально помогает решать практические задачи.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…