NVIDIA представила Nemotron-Labs-Diffusion: модель с тройным декодированием

NVIDIA представила Nemotron-Labs-Diffusion — языковую модель с поддержкой трёх режимов декодирования: автореgressивного, диффузионного и спекулятивного. Ключевой результат: 6× ускорение обработки токенов относительно Qwen3-8B. Модель доступна в трёх размерах (3B, 8B, 14B) с вариантами для базовых задач, инструкций и мультимодальных приложений.

ЖХ

Редакция Hamidun News

AI‑мониторинг · MarkTechPost

21 мая 2026 г.· 2 мин

AI-обработка оригинала MarkTechPost; редакция Hamidun News

NVIDIA представила Nemotron-Labs-Diffusion: модель с тройным декодированием — Источник: MarkTechPost. Коллаж: Hamidun News.

◐ Слушать статью

NVIDIA представила Nemotron-Labs-Diffusion — новое семейство языковых моделей, которое объединяет три способа генерации текста в одной архитектуре. Это инженерное решение адресует главное узкое место современных LLM: стандартные модели генерируют текст последовательно, один токен за другим, что ограничивает скорость обработки и пропускную способность серверов.

Три режима в одной архитектуре

Nemotron-Labs-Diffusion поддерживает одновременно три режима декодирования. Первый — автореgressивный (AR), классический как в ChatGPT: модель смотрит на всё, что она сама напечатала, и пишет следующий токен. Второй — диффузионный параллельный, когда модель генерирует сразу несколько токенов одновременно, как бы «рисуя» текст с двух сторон.

Третий — спекулятивный, где модель быстро предсказывает блок токенов, а затем проверяет предсказания за один проход. Такая гибридность позволяет выбирать режим в зависимости от задачи: реал-тайм чат — используй спекулятивный (быстро), пакетная обработка документов — используй диффузионный (параллель), аудит или проверка — используй autoregressive (точно). Autoregressive: классическая последовательная генерация, предсказуемо Diffusion-based: параллельная генерация нескольких токенов за раз * Self-speculation: экономное быстрое предсказание с одноходовой верификацией ## В шесть раз быстрее на токенах Результаты говорят сами за себя.

При одинаковом размере модели (8B параметров) Nemotron-Labs-Diffusion обрабатывает в 6 раз больше токенов за один forward pass, чем Qwen3-8B. Это огромное различие. Для коммерческих приложений это означает либо дешевле обслуживать пользователей, либо больше пользователей на одном сервере.

Важно: речь не о скорости ответа на единственное сообщение, а о пропускной способности в целом. Сервер может обработать 6 последовательностей параллельно, вместо одной.

Три размера, три варианта NVIDIA выпустила

Nemotron-Labs-Diffusion в трёх размерах: 3B (для edge-устройств и мобилей), 8B (сбалансированный вариант) и 14B (для максимальной качества и сложности). Каждый размер доступен сразу в трёх вариантах: base (базовая модель), instruct (оптимизирована для чатботов и инструкций) и vision-language (работает с изображениями и текстом). Это означает, что компания может взять 8B модель с поддержкой видения, и сразу иметь три режима генерации плюс мультимодальность.

Что это значит Паттерн ясен: мир переходит от чистого autoregressive к гибридным архитектурам.

Моделям, которые умеют параллельно генерировать много токенов, предиктивно спекулировать и проверять себя, не нужно выбирать между скоростью и качеством — они оптимизируют оба параметра одновременно. Вскоре pure-autoregressive модели могут остаться только для специалистов, которым нужна абсолютная стабильность вывода.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.