NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами
NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами на основе замороженного AR-бэкбона Nemotron-3-Nano-30B-A3B. Новинка…
AI-обработка оригинала MarkTechPost; редакция Hamidun News
NVIDIA 1 июля 2026 года опубликовала Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами, построенную поверх замороженного авторегрессионного бэкбона Nemotron-3-Nano-30B-A3B. Главная цель релиза — устранить системный bottleneck текстовой генерации, который ограничивает пропускную способность всех авторегрессионных языковых систем. Модель распространяется под лицензией NVIDIA Nemotron Open Model License.
В чём ограничение авторегрессионных моделей
Авторегрессионные (AR) архитектуры — основа GPT, Llama, Gemini и большинства других LLM. Принцип работы прост: каждый следующий токен предсказывается на основе всех предыдущих, и процесс строго последователен. Это элегантно на уровне обучения, но создаёт конкретную проблему при промышленном инференсе.
Следующий токен нельзя вычислить, пока не закончен предыдущий. Добавление GPU-ускорителей в кластер не снимает это ограничение — оно встроено в архитектуру на уровне вычислительного графа: декодирование последовательно по определению. При генерации длинных ответов пользователь ждёт пропорционально дольше, а стоимость одного токена при масштабировании упирается в жёсткий пол. Для провайдеров, обрабатывающих миллиарды запросов в день, это прямые и постоянные операционные издержки. Именно поэтому ускорение инференса — одно из главных направлений исследований в индустрии наряду со снижением размеров моделей и квантизацией.
Дискретные диффузионные языковые модели предлагают альтернативный механизм: вместо пошагового декодирования они итеративно уточняют весь выходной блок за несколько шагов. Это открывает потенциал параллельной генерации нескольких токенов за один прогон — и, соответственно, принципиально иной профиль пропускной способности.
Как устроена архитектура TwoTower
Двухбашенная конструкция объединяет AR- и диффузионный подходы в одной модели:
- AR-бэкбон: предобученный Nemotron-3-Nano-30B-A3B (30 млрд параметров, заморожен)
- Диффузионная голова: обучаемый компонент поверх замороженного бэкбона
- Открытые веса: лицензия NVIDIA Nemotron Open Model License
- Дата выхода: 1 июля 2026 года
Замораживание AR-бэкбона — принципиальное решение в архитектуре. Вместо обучения диффузионной модели с нуля NVIDIA использует предобученную AR-основу как неизменяемый источник контекстных языковых представлений. Обучается только диффузионная компонента, что снижает вычислительные затраты на эксперимент и сокращает необходимые данные для адаптации. Выбор Nemotron-3-Nano-30B-A3B в качестве бэкбона также облегчает воспроизводимость: другие команды могут повторить эксперимент, опираясь на тот же публично доступный чекпоинт.
Почему диффузия для текста — нетривиальная задача
Диффузионные модели стали стандартом генерации изображений — Stable Diffusion, Midjourney, DALL-E 3 работают именно на этом принципе. Перенос на текст принципиально сложнее: пиксели существуют в непрерывном числовом пространстве, тогда как токены дискретны. Стандартный гауссовский шум к дискретным объектам неприменим, поэтому для текста разрабатываются специальные процессы дискретной диффузии.
Это направление активно развивается, но остаётся молодым по меркам индустрии. Предыдущие работы — MDLM, SEDD и другие — демонстрировали конкурентные результаты на языковых бенчмарках, однако разрыв с лучшими AR-системами по качеству сохранялся. Двухбашенный подход NVIDIA — попытка снять этот компромисс: взять сильные языковые представления уже обученной AR-модели и добавить к ним диффузионный механизм, не теряя накопленных знаний о синтаксисе, семантике и контекстных зависимостях.
Открытые веса отдельно ценны для академического сообщества: исследователи смогут воспроизвести архитектуру, измерить реальный прирост пропускной способности на собственных задачах и предложить улучшения поверх опубликованного чекпоинта.
Что это значит
Nemotron-Labs-TwoTower — практический шаг к ускорению LLM-инференса без замены аппаратного обеспечения. NVIDIA, будучи ведущим поставщиком GPU для AI-рынка, заинтересована в расширении применимости языковых моделей, в том числе через снижение стоимости инференса. Если гибридный AR+диффузионный подход подтвердит свою состоятельность в реальных нагрузочных сценариях — как по качеству генерации, так и по реальному ускорению throughput, — он может повлиять на архитектурные выборы при разработке следующего поколения языковых систем.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.