MarkTechPost→ оригинал

NVIDIA представила Nemotron-Labs-Diffusion: модель с тройным декодированием

NVIDIA представила Nemotron-Labs-Diffusion — языковую модель с поддержкой трёх режимов декодирования: автореgressивного, диффузионного и спекулятивного. Ключево

NVIDIA представила Nemotron-Labs-Diffusion: модель с тройным декодированием
Источник: MarkTechPost. Коллаж: Hamidun News.
◐ Слушать статью

NVIDIA представила Nemotron-Labs-Diffusion — новое семейство языковых моделей, которое объединяет три способа генерации текста в одной архитектуре. Это инженерное решение адресует главное узкое место современных LLM: стандартные модели генерируют текст последовательно, один токен за другим, что ограничивает скорость обработки и пропускную способность серверов.

Три режима в одной архитектуре

Nemotron-Labs-Diffusion поддерживает одновременно три режима декодирования. Первый — автореgressивный (AR), классический как в ChatGPT: модель смотрит на всё, что она сама напечатала, и пишет следующий токен. Второй — диффузионный параллельный, когда модель генерирует сразу несколько токенов одновременно, как бы «рисуя» текст с двух сторон.

Третий — спекулятивный, где модель быстро предсказывает блок токенов, а затем проверяет предсказания за один проход. Такая гибридность позволяет выбирать режим в зависимости от задачи: реал-тайм чат — используй спекулятивный (быстро), пакетная обработка документов — используй диффузионный (параллель), аудит или проверка — используй autoregressive (точно). Autoregressive: классическая последовательная генерация, предсказуемо Diffusion-based: параллельная генерация нескольких токенов за раз * Self-speculation: экономное быстрое предсказание с одноходовой верификацией ## В шесть раз быстрее на токенах Результаты говорят сами за себя.

При одинаковом размере модели (8B параметров) Nemotron-Labs-Diffusion обрабатывает в 6 раз больше токенов за один forward pass, чем Qwen3-8B. Это огромное различие. Для коммерческих приложений это означает либо дешевле обслуживать пользователей, либо больше пользователей на одном сервере.

Важно: речь не о скорости ответа на единственное сообщение, а о пропускной способности в целом. Сервер может обработать 6 последовательностей параллельно, вместо одной.

Три размера, три варианта NVIDIA выпустила

Nemotron-Labs-Diffusion в трёх размерах: 3B (для edge-устройств и мобилей), 8B (сбалансированный вариант) и 14B (для максимальной качества и сложности). Каждый размер доступен сразу в трёх вариантах: base (базовая модель), instruct (оптимизирована для чатботов и инструкций) и vision-language (работает с изображениями и текстом). Это означает, что компания может взять 8B модель с поддержкой видения, и сразу иметь три режима генерации плюс мультимодальность.

Что это значит Паттерн ясен: мир переходит от чистого autoregressive к гибридным архитектурам.

Моделям, которые умеют параллельно генерировать много токенов, предиктивно спекулировать и проверять себя, не нужно выбирать между скоростью и качеством — они оптимизируют оба параметра одновременно. Вскоре pure-autoregressive модели могут остаться только для специалистов, которым нужна абсолютная стабильность вывода.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…