NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами

NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами на основе замороженного AR-бэкбона Nemotron-3-Nano-30B-A3B. Новинка…

ЖХ

Редакция Hamidun News

AI‑мониторинг · MarkTechPost

4 июл. 2026 г.· 2 мин

AI-обработка оригинала MarkTechPost; редакция Hamidun News

NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами — Источник: MarkTechPost. Коллаж: Hamidun News.

◐ Слушать статью

NVIDIA 1 июля 2026 года опубликовала Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами, построенную поверх замороженного авторегрессионного бэкбона Nemotron-3-Nano-30B-A3B. Главная цель релиза — устранить системный bottleneck текстовой генерации, который ограничивает пропускную способность всех авторегрессионных языковых систем. Модель распространяется под лицензией NVIDIA Nemotron Open Model License.

В чём ограничение авторегрессионных моделей

Авторегрессионные (AR) архитектуры — основа GPT, Llama, Gemini и большинства других LLM. Принцип работы прост: каждый следующий токен предсказывается на основе всех предыдущих, и процесс строго последователен. Это элегантно на уровне обучения, но создаёт конкретную проблему при промышленном инференсе.

Следующий токен нельзя вычислить, пока не закончен предыдущий. Добавление GPU-ускорителей в кластер не снимает это ограничение — оно встроено в архитектуру на уровне вычислительного графа: декодирование последовательно по определению. При генерации длинных ответов пользователь ждёт пропорционально дольше, а стоимость одного токена при масштабировании упирается в жёсткий пол. Для провайдеров, обрабатывающих миллиарды запросов в день, это прямые и постоянные операционные издержки. Именно поэтому ускорение инференса — одно из главных направлений исследований в индустрии наряду со снижением размеров моделей и квантизацией.

Дискретные диффузионные языковые модели предлагают альтернативный механизм: вместо пошагового декодирования они итеративно уточняют весь выходной блок за несколько шагов. Это открывает потенциал параллельной генерации нескольких токенов за один прогон — и, соответственно, принципиально иной профиль пропускной способности.

Как устроена архитектура TwoTower

Двухбашенная конструкция объединяет AR- и диффузионный подходы в одной модели:

AR-бэкбон: предобученный Nemotron-3-Nano-30B-A3B (30 млрд параметров, заморожен)
Диффузионная голова: обучаемый компонент поверх замороженного бэкбона
Открытые веса: лицензия NVIDIA Nemotron Open Model License
Дата выхода: 1 июля 2026 года

Замораживание AR-бэкбона — принципиальное решение в архитектуре. Вместо обучения диффузионной модели с нуля NVIDIA использует предобученную AR-основу как неизменяемый источник контекстных языковых представлений. Обучается только диффузионная компонента, что снижает вычислительные затраты на эксперимент и сокращает необходимые данные для адаптации. Выбор Nemotron-3-Nano-30B-A3B в качестве бэкбона также облегчает воспроизводимость: другие команды могут повторить эксперимент, опираясь на тот же публично доступный чекпоинт.

Почему диффузия для текста — нетривиальная задача

Диффузионные модели стали стандартом генерации изображений — Stable Diffusion, Midjourney, DALL-E 3 работают именно на этом принципе. Перенос на текст принципиально сложнее: пиксели существуют в непрерывном числовом пространстве, тогда как токены дискретны. Стандартный гауссовский шум к дискретным объектам неприменим, поэтому для текста разрабатываются специальные процессы дискретной диффузии.

Это направление активно развивается, но остаётся молодым по меркам индустрии. Предыдущие работы — MDLM, SEDD и другие — демонстрировали конкурентные результаты на языковых бенчмарках, однако разрыв с лучшими AR-системами по качеству сохранялся. Двухбашенный подход NVIDIA — попытка снять этот компромисс: взять сильные языковые представления уже обученной AR-модели и добавить к ним диффузионный механизм, не теряя накопленных знаний о синтаксисе, семантике и контекстных зависимостях.

Открытые веса отдельно ценны для академического сообщества: исследователи смогут воспроизвести архитектуру, измерить реальный прирост пропускной способности на собственных задачах и предложить улучшения поверх опубликованного чекпоинта.

Что это значит

Nemotron-Labs-TwoTower — практический шаг к ускорению LLM-инференса без замены аппаратного обеспечения. NVIDIA, будучи ведущим поставщиком GPU для AI-рынка, заинтересована в расширении применимости языковых моделей, в том числе через снижение стоимости инференса. Если гибридный AR+диффузионный подход подтвердит свою состоятельность в реальных нагрузочных сценариях — как по качеству генерации, так и по реальному ускорению throughput, — он может повлиять на архитектурные выборы при разработке следующего поколения языковых систем.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.