Nous Research ускорила предобучение LLM в 2.5 раза без смены архитектуры

Q: Источник материала?

Оригинальная публикация на MarkTechPost. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-16. Время чтения: 3 мин.

Nous Research разработала Token Superposition Training (TST) — двухфазный метод предобучения, который ускоряет обучение LLM в 2.5 раза при одинаковых вычислител

ЖХ

Редакция Hamidun News

AI‑мониторинг · MarkTechPost

2026-05-16· 3 мин

Nous Research ускорила предобучение LLM в 2.5 раза без смены архитектуры — Источник: MarkTechPost. Коллаж: Hamidun News.

◐ Слушать статью

Nous Research разработала Token Superposition Training (TST) — инновационный двухфазный метод предобучения, который сокращает время обучения больших языковых моделей в 2.5 раза при одинаковых вычислительных затратах, не требуя никаких изменений в архитектуре, токенайзере или поведении при инференсе.

Как устроен

Token Superposition Training Метод основан на простой, но эффективной идее: на первой фазе предобучения соседние token embedding'и усредняются в группы, или мешки (bags). Вместо предсказания каждого токена отдельно модель работает с агрегированными представлениями последовательностей. Это позволяет ей обрабатывать информацию крупными блоками и значительно ускорить пересчёт градиентов во время обратного распространения ошибки.

По сути, первая фаза учит модель находить закономерности на более высоком уровне абстракции. Вторая фаза обучения немного короче по продолжительности — модель переходит на стандартное предсказание следующего токена, как обычно делает любая LLM. На этом этапе она быстро адаптируется к финальной задаче и восстанавливает потенциальные потери в качестве, которые могли появиться в первой фазе.

Переход между фазами плавен и естественен для нейросетевой архитектуры — нет никаких странных артефактов или несовместимостей. Ключевое преимущество TST в том, что метод не трогает внутреннюю архитектуру модели. Количество параметров остаётся неизменным, окружающий инструментарий и экосистема не меняются — то же количество весов, тот же токенайзер, тот же оптимизатор Adam, SGD или любой другой.

При инференсе модель полностью совместима с существующими системами развёртывания. Это критично для индустриального применения, где смена архитектуры может потребовать переписания кучи кода.

На каких моделях протестирована новая техника

Nous Research проверила TST на моделях разных масштабов и архитектур, чтобы убедиться в универсальности подхода: 270M параметров (мини-модели для быстрых экспериментов) 600M параметров (стандартный размер для исследовательских проектов) 3B параметров (плотная архитектура, dense models) 10B параметров с архитектурой MoE (Mixture of Experts) На всех этих масштабах метод показал устойчивое ускорение в 2.5 раза при одинаковых вычислительных затратах, измеряемых в FLOP (floating point operations). Результаты обнадёживают: это не лабораторный трюк, работающий только на конкретном размере модели или архитектуре, а универсальный подход, который хорошо масштабируется. Значит, его можно применять широко.

Почему это критично для индустрии

Предобучение LLM — самый ресурсоёмкий и экономически затратный этап разработки моделей. Обучение одной большой модели требует тысяч часов работы GPU-кластеров, а затраты на электричество и оборудование исчисляются миллионами долларов. Ускорение в 2.5 раза — это не просто улучшение на 5-10%, а серьёзное и достижимое снижение итоговых расходов, которое напрямую влияет на экономику разработки. Для стартапов и небольших команд это означает возможность обучать качественные, конкурентоспособные модели с меньшим стартовым бюджетом. Для больших лабораторий вроде Meta, Mistral или OpenAI — способность экспериментировать с гораздо большим количеством вариантов архитектуры, гиперпараметров и стратегий обучения на той же инфраструктуре. Это расширяет границы экспериментирования, ускоряет темп инноваций и позволяет быстрее тестировать свежие идеи.

Что это значит

Token Superposition Training доказывает, что даже в хорошо изученной области предобучения есть простые, но мощные способы экономии вычислений. Это может вдохновить других исследователей на поиск аналогичных оптимизаций на разных этапах обучения модели — от инициализации весов до адаптивных learning rate schedules. Для индустрии — положительный сигнал, что граница между фундаментальными исследованиями и промышленным применением становится всё более размытой, и хорошие идеи быстро находят дорогу в продакшн.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com