Hugging Face Blog→ оригинал

NVIDIA lançou Nemotron 3 Nano 4B — um modelo híbrido compacto para execução em dispositivos

A NVIDIA lançou o Nemotron 3 Nano 4B, um modelo de linguagem compacto para execução direta em dispositivos, sem depender da nuvem. A arquitetura híbrida Mamba-T

NVIDIA lançou Nemotron 3 Nano 4B — um modelo híbrido compacto para execução em dispositivos
Источник: Hugging Face Blog. Коллаж: Hamidun News.

NVIDIA открыла доступ к Nemotron 3 Nano 4B — компактной языковой модели на 4 млрд параметров, разработанной специально для edge-развёртывания на устройствах Jetson, RTX GPU и DGX Spark. Это первая 4B-модель NVIDIA, построенная на гибридной Mamba-Transformer архитектуре с ориентацией на минимальный расход памяти и высокую скорость вывода.

Гибридная архитектура нового поколения В основе

Nemotron 3 Nano 4B лежит 42-слойная конструкция: 21 блок Mamba, 4 блока Attention и 17 блоков MLP. Такое соотношение нетипично для языковых моделей этого размера — большинство конкурентов строятся исключительно на трансформерах. Mamba-слои обрабатывают длинные последовательности с линейной, а не квадратичной сложностью по памяти — это главный источник эффективности. Блоки Attention расставлены стратегически и сохраняют точность там, где важно глобальное понимание контекста. По сравнению с родительской моделью Nemotron Nano 9B v2 размерность эмбеддингов снижена с 4 480 до 3 136, число Mamba-голов — со 128 до 96, количество слоёв — с 56 до 42. Результат: наименьший объём VRAM в классе 4B при тестировании на RTX 4070 и рекордно низкая задержка Time-to-First-Token при длинных входных последовательностях.

Четыре стадии обучения

Nemotron 3 Nano 4B — не просто обрезанный 9B, а модель с собственным обучающим пайплайном из четырёх этапов. Первый — компрессия через Nemotron Elastic: нейросетевой поиск архитектуры (NAS) с обученным роутером определял, где именно обрезать 9B-сеть. Роутер работал по четырём осям: Mamba-головы, скрытая размерность, FFN-каналы и глубина модели.

Второй — дистилляция для восстановления точности: Короткий контекст (8K, 63B токенов): 70% post-training + 30% pretraining данных Длинный контекст (49K, 150B токенов): расширение окна для сложных задач рассуждения Третий — супервизорная тонкая настройка (SFT): два этапа по математике, коду, науке, чату, агентным задачам и безопасности. Четвёртый — трёхэтапное reinforcement learning через NeMo-RL: от однооборотного instruction following к многооборотному с JSON/XML-выходами и далее к инструментальному вызову функций. Соотношение reasoning/non-reasoning данных — 50/50 с прогрессивным ужесточением KL-штрафа.

Числа, которые важны

На Jetson Orin Nano с 4-битным GGUF (Q4_K_M) модель выдаёт 18 токенов/сек — вдвое быстрее, чем Nemotron Nano 9B v2 на том же железе. FP8-квантизация через ModelOpt сохраняет 100% медианной точности при ускорении вывода в 1,8× по сравнению с BF16.

«FP8 quantization achieved 100% median accuracy recovery with up to 1.8X latency/throughput improvement over BF16» — из технической документации NVIDIA.

По ключевым бенчмаркам модель лидирует среди конкурентов своего класса: IFBench и IFEval — следование инструкциям Orak — игровой интеллект: Super Mario, Darkest Dungeon, Stardew Valley Tool-use — вызов инструментов и избегание галлюцинаций TTFT — минимальная задержка при длинных входных последовательностях Модель доступна в трёх вариантах: BF16 (полная точность), FP8 (оптимизирован под RTX и серверные GPU), GGUF Q4_K_M (для Jetson и Llama.cpp). Поддерживаются движки vLLM, TRT-LLM и Hugging Face Transformers.

Что это значит 4B-модель с двукратным преимуществом по скорости над 9B на

Jetson меняет уравнение edge AI: роботика, IoT, локальные агенты и игровые NPC получают инструмент промышленного уровня без дорогого железа и без передачи данных в облако. Открытые веса позволяют дообучить модель под конкретный домен без лицензионных ограничений.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…