Nous Research ускорила предобучение LLM в 2.5 раза без смены архитектуры
Nous Research разработала Token Superposition Training (TST) — двухфазный метод предобучения, который ускоряет обучение LLM в 2.5 раза при одинаковых вычислител

Nous Research разработала Token Superposition Training (TST) — инновационный двухфазный метод предобучения, который сокращает время обучения больших языковых моделей в 2.5 раза при одинаковых вычислительных затратах, не требуя никаких изменений в архитектуре, токенайзере или поведении при инференсе.
Как устроен
Token Superposition Training Метод основан на простой, но эффективной идее: на первой фазе предобучения соседние token embedding'и усредняются в группы, или мешки (bags). Вместо предсказания каждого токена отдельно модель работает с агрегированными представлениями последовательностей. Это позволяет ей обрабатывать информацию крупными блоками и значительно ускорить пересчёт градиентов во время обратного распространения ошибки.
По сути, первая фаза учит модель находить закономерности на более высоком уровне абстракции. Вторая фаза обучения немного короче по продолжительности — модель переходит на стандартное предсказание следующего токена, как обычно делает любая LLM. На этом этапе она быстро адаптируется к финальной задаче и восстанавливает потенциальные потери в качестве, которые могли появиться в первой фазе.
Переход между фазами плавен и естественен для нейросетевой архитектуры — нет никаких странных артефактов или несовместимостей. Ключевое преимущество TST в том, что метод не трогает внутреннюю архитектуру модели. Количество параметров остаётся неизменным, окружающий инструментарий и экосистема не меняются — то же количество весов, тот же токенайзер, тот же оптимизатор Adam, SGD или любой другой.
При инференсе модель полностью совместима с существующими системами развёртывания. Это критично для индустриального применения, где смена архитектуры может потребовать переписания кучи кода.
На каких моделях протестирована новая техника
Nous Research проверила TST на моделях разных масштабов и архитектур, чтобы убедиться в универсальности подхода: 270M параметров (мини-модели для быстрых экспериментов) 600M параметров (стандартный размер для исследовательских проектов) 3B параметров (плотная архитектура, dense models) 10B параметров с архитектурой MoE (Mixture of Experts) На всех этих масштабах метод показал устойчивое ускорение в 2.5 раза при одинаковых вычислительных затратах, измеряемых в FLOP (floating point operations). Результаты обнадёживают: это не лабораторный трюк, работающий только на конкретном размере модели или архитектуре, а универсальный подход, который хорошо масштабируется. Значит, его можно применять широко.
Почему это критично для индустрии
Предобучение LLM — самый ресурсоёмкий и экономически затратный этап разработки моделей. Обучение одной большой модели требует тысяч часов работы GPU-кластеров, а затраты на электричество и оборудование исчисляются миллионами долларов. Ускорение в 2.5 раза — это не просто улучшение на 5-10%, а серьёзное и достижимое снижение итоговых расходов, которое напрямую влияет на экономику разработки. Для стартапов и небольших команд это означает возможность обучать качественные, конкурентоспособные модели с меньшим стартовым бюджетом. Для больших лабораторий вроде Meta, Mistral или OpenAI — способность экспериментировать с гораздо большим количеством вариантов архитектуры, гиперпараметров и стратегий обучения на той же инфраструктуре. Это расширяет границы экспериментирования, ускоряет темп инноваций и позволяет быстрее тестировать свежие идеи.
Что это значит
Token Superposition Training доказывает, что даже в хорошо изученной области предобучения есть простые, но мощные способы экономии вычислений. Это может вдохновить других исследователей на поиск аналогичных оптимизаций на разных этапах обучения модели — от инициализации весов до адаптивных learning rate schedules. Для индустрии — положительный сигнал, что граница между фундаментальными исследованиями и промышленным применением становится всё более размытой, и хорошие идеи быстро находят дорогу в продакшн.