MarkTechPost→ оригинал

NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами

NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами на основе замороженного AR-бэкбона Nemotron-3-Nano-30B-A3B. Новинка…

AI-обработка оригинала MarkTechPost; редакция Hamidun News
NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами
Источник: MarkTechPost. Коллаж: Hamidun News.
◐ Слушать статью

NVIDIA 1 июля 2026 года опубликовала Nemotron-Labs-TwoTower — диффузионную языковую модель с открытыми весами, построенную поверх замороженного авторегрессионного бэкбона Nemotron-3-Nano-30B-A3B. Главная цель релиза — устранить системный bottleneck текстовой генерации, который ограничивает пропускную способность всех авторегрессионных языковых систем. Модель распространяется под лицензией NVIDIA Nemotron Open Model License.

В чём ограничение авторегрессионных моделей

Авторегрессионные (AR) архитектуры — основа GPT, Llama, Gemini и большинства других LLM. Принцип работы прост: каждый следующий токен предсказывается на основе всех предыдущих, и процесс строго последователен. Это элегантно на уровне обучения, но создаёт конкретную проблему при промышленном инференсе.

Следующий токен нельзя вычислить, пока не закончен предыдущий. Добавление GPU-ускорителей в кластер не снимает это ограничение — оно встроено в архитектуру на уровне вычислительного графа: декодирование последовательно по определению. При генерации длинных ответов пользователь ждёт пропорционально дольше, а стоимость одного токена при масштабировании упирается в жёсткий пол. Для провайдеров, обрабатывающих миллиарды запросов в день, это прямые и постоянные операционные издержки. Именно поэтому ускорение инференса — одно из главных направлений исследований в индустрии наряду со снижением размеров моделей и квантизацией.

Дискретные диффузионные языковые модели предлагают альтернативный механизм: вместо пошагового декодирования они итеративно уточняют весь выходной блок за несколько шагов. Это открывает потенциал параллельной генерации нескольких токенов за один прогон — и, соответственно, принципиально иной профиль пропускной способности.

Как устроена архитектура TwoTower

Двухбашенная конструкция объединяет AR- и диффузионный подходы в одной модели:

  • AR-бэкбон: предобученный Nemotron-3-Nano-30B-A3B (30 млрд параметров, заморожен)
  • Диффузионная голова: обучаемый компонент поверх замороженного бэкбона
  • Открытые веса: лицензия NVIDIA Nemotron Open Model License
  • Дата выхода: 1 июля 2026 года

Замораживание AR-бэкбона — принципиальное решение в архитектуре. Вместо обучения диффузионной модели с нуля NVIDIA использует предобученную AR-основу как неизменяемый источник контекстных языковых представлений. Обучается только диффузионная компонента, что снижает вычислительные затраты на эксперимент и сокращает необходимые данные для адаптации. Выбор Nemotron-3-Nano-30B-A3B в качестве бэкбона также облегчает воспроизводимость: другие команды могут повторить эксперимент, опираясь на тот же публично доступный чекпоинт.

Почему диффузия для текста — нетривиальная задача

Диффузионные модели стали стандартом генерации изображений — Stable Diffusion, Midjourney, DALL-E 3 работают именно на этом принципе. Перенос на текст принципиально сложнее: пиксели существуют в непрерывном числовом пространстве, тогда как токены дискретны. Стандартный гауссовский шум к дискретным объектам неприменим, поэтому для текста разрабатываются специальные процессы дискретной диффузии.

Это направление активно развивается, но остаётся молодым по меркам индустрии. Предыдущие работы — MDLM, SEDD и другие — демонстрировали конкурентные результаты на языковых бенчмарках, однако разрыв с лучшими AR-системами по качеству сохранялся. Двухбашенный подход NVIDIA — попытка снять этот компромисс: взять сильные языковые представления уже обученной AR-модели и добавить к ним диффузионный механизм, не теряя накопленных знаний о синтаксисе, семантике и контекстных зависимостях.

Открытые веса отдельно ценны для академического сообщества: исследователи смогут воспроизвести архитектуру, измерить реальный прирост пропускной способности на собственных задачах и предложить улучшения поверх опубликованного чекпоинта.

Что это значит

Nemotron-Labs-TwoTower — практический шаг к ускорению LLM-инференса без замены аппаратного обеспечения. NVIDIA, будучи ведущим поставщиком GPU для AI-рынка, заинтересована в расширении применимости языковых моделей, в том числе через снижение стоимости инференса. Если гибридный AR+диффузионный подход подтвердит свою состоятельность в реальных нагрузочных сценариях — как по качеству генерации, так и по реальному ускорению throughput, — он может повлиять на архитектурные выборы при разработке следующего поколения языковых систем.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…