Muro para LLM: por que céticos se enganaram novamente
Тезис о том, что обучение нейросетей замедляется из-за нехватки текстов, стал общим местом. Но это лишь одна из шести осей развития. Пока критики хоронят LLM, и

Каждые полгода в индустрии ИИ наступает период «великого уныния». Сначала нам говорили, что GPT-3 — это предел и дальше расти некуда. Потом уверяли, что для следующего шага нужны триллионы токенов, которых просто нет в интернете. Теперь новый тренд: данные закончились, архитектура трансформеров себя исчерпала, пора расходиться. Это звучит солидно и даже логично, если смотреть на мир через замочную скважину. Но если ты следишь за игрой чуть дольше, чем длится один цикл хайпа, то понимаешь — мы не упёрлись в стену, мы просто подошли к концу одной прямой и сворачиваем на скоростное шоссе.
Проблема скептиков в том, что они мыслят одномерно. Для них прогресс — это когда ты вливаешь в модель больше текста и получаешь больше ума. Да, текстовые данные для классического обучения с учителем действительно подходят к концу. Весь интернет уже «переварен» нейросетями. Но обучение на данных — это лишь одна из шести осей, по которым движется прогресс. Пока кто-то оплакивает пустые библиотеки, инженеры в OpenAI, Google и Anthropic вовсю крутят остальные пять рычагов, о которых почему-то забывают в публичных дискуссиях.
Первый и, пожалуй, самый важный рычаг сегодня — это вычисления во время вывода, или inference-time compute. Посмотри на модели семейства o1. Они не просто выдают ответ, они «думают» перед тем, как написать первую букву. Это меняет парадигму: теперь не обязательно делать модель в десять раз больше, чтобы она стала умнее. Можно заставить её дольше размышлять над задачей. Это как в жизни: умный человек — это не тот, кто прочитал больше всех книг, а тот, кто умеет глубоко анализировать информацию. Мы переходим от количества прочитанного к качеству осмысления.
Вторая ось — это алгоритмическая эффективность. Помнишь, как все жаловались на прожорливость трансформеров? Сейчас на сцену выходят архитектуры вроде Mamba и Mixture of Experts (MoE). Они позволяют получать ту же мощь при гораздо меньших затратах ресурсов. Мы учимся строить более совершенные двигатели, а не просто увеличиваем объем бензобака. К этому добавляется третья ось — мультимодальность. Модели перестают быть просто «читателями текстов». Они начинают видеть, слышать и понимать физический мир. Когда ИИ учится на видео и аудио, понятия «текст закончился» теряют всякий смысл. Мир — это бесконечный поток данных, который мы только начали осваивать.
Четвертый и пятый факторы — это использование инструментов и самообучение через self-play. Вспомни, как AlphaGo победила чемпиона мира в го. Она не училась только на партиях людей, она играла сама с собой миллионы раз. Сейчас этот подход приходит в LLM. Модели начинают генерировать синтетические данные, проверять их на логику и учиться на собственных ошибках. Если ИИ может сам создавать задачи и сам их решать, ему больше не нужен человек как единственный источник знаний. Это замыкает цикл обучения и делает его практически бесконечным.
Мы находимся в точке, где старые метрики прогресса — количество параметров и объем датасета — перестают быть главными. Наступает эра архитектурной гибкости и интеллектуальной глубины. Те, кто сегодня кричит об «исчерпании технологий», просто не заметили, как правила игры изменились. Мы не достигли потолка, мы просто закончили фундамент и начинаем строить этажи. И судя по темпам внедрения агентов и инструментов, эти этажи будут расти гораздо быстрее, чем кто-либо ожидал.
Главное: Забудь про «нехватку данных». Настоящая битва сейчас идет за то, кто научит модель думать дольше и эффективнее, а не кто скормит ей больше терабайтов из Reddit.