Nvidia выпустила Nemotron 3 Nano Omni — открытую мультимодальную модель для edge-агентов
Nvidia представила Nemotron 3 Nano Omni — открытую мультимодальную модель для edge-агентов, которая объединяет текст, изображение, аудио, видео и документы в од

Nvidia 28 апреля 2026 года представила Nemotron 3 Nano Omni — открытую мультимодальную модель, рассчитанную на автономных AI-агентов на периферийных устройствах. Это не просто ещё один релиз для экосистемы CUDA: компания показывает, что хочет зарабатывать не только на железе, но и на самих моделях.
Что умеет модель
Nemotron 3 Nano Omni объединяет в одной архитектуре понимание текста, изображений, аудио и видео. Модель также умеет работать с документами, диаграммами и графическими интерфейсами, а на выходе выдаёт текстовый ответ. По сути, Nvidia предлагает не связку из нескольких отдельных моделей для зрения, речи и документов, а один общий движок для задач, где агенту нужно одновременно видеть экран, читать файл, слушать голосовую команду и реагировать без лишних задержек между сервисами.
Ключевая идея в том, что модель большая по общему объёму, но относительно лёгкая в работе. У Nemotron 3 Nano Omni 30 млрд параметров, однако на каждом шаге инференса активируются только 3 млрд благодаря архитектуре mixture-of-experts. Nvidia заявляет, что такой подход даёт до девятикратного прироста пропускной способности по сравнению с сопоставимыми открытыми мультимодальными моделями, а сама модель лидирует в шести бенчмарках по работе с документами, видео и аудио.
Базовая текстовая часть обучалась на 25 трлн токенов и поддерживает контекстное окно до 256 тыс. токенов. Внутри модель использует гибридную схему Mamba-Transformer.
По описанию Nvidia, в ней сочетаются 23 слоя Mamba-2, 23 слоя mixture-of-experts и шесть grouped-query attention слоёв. Каждый токен направляется только к шести из 128 экспертов плюс общему эксперту, поэтому вычисления не раздуваются. Для видео применяются трёхмерные свёртки, которые учитывают движение между кадрами, а не просто разбирают ролик как набор статичных картинок.
Именно эта инженерная часть должна сделать модель пригодной для real-time агентов на одном GPU. 30 млрд параметров всего, 3 млрд активны на инференсе запуск возможен на одном GPU, без серверного кластера коммерческое использование разрешено по Nvidia Open Model Agreement модель доступна на Hugging Face и через Nvidia NIM * среди входов — текст, изображения, аудио, видео, документы и графические интерфейсы ## Зачем это Nvidia Последние два года Nvidia выигрывала прежде всего как поставщик инфраструктуры: GPU, сети, CUDA и весь софт вокруг них. Но семейство Nemotron уже превратилось в отдельное направление, и теперь компания делает более жёсткий ход — продвигает собственную модель как готовую основу для industrial AI-агентов.
Логика простая: если модель оптимизирована под железо Nvidia, а железо — под модель Nvidia, компания получает контроль почти над всем стеком, как Google, Amazon или Microsoft в своих облачных экосистемах. Именно поэтому релиз подаётся не как демонстрация лабораторных возможностей, а как продукт для внедрения. Среди ранних пользователей и партнёров Nvidia называет Foxconn, Palantir, Aible, ASI, Eka Care и H Company; Dell, DocuSign, Infosys, Oracle и Zefr оценивают модель для продакшена.
Сценарии тоже выбраны не потребительские: визуальный контроль на фабриках, обработка документов, голосовые агенты и понимание экрана для computer-use систем. Модель можно развернуть через Amazon SageMaker JumpStart, OpenRouter, vLLM, SGLang, Ollama, llama.cpp и TensorRT-LLM, то есть Nvidia хочет сделать её доступной в любом привычном стеке.
На фоне конкурентов ставка выглядит довольно точной. У Google есть мультимодальные Gemini и on-device версия Gemini Nano, у Meta — сильная линейка Llama, у OpenAI остаётся коммерческий ориентир в виде GPT-моделей. Но Nvidia пытается собрать редкую комбинацию сразу из четырёх свойств: мультимодальность, открытые веса, коммерческая лицензия и работа на edge-оборудовании без облачного масштаба.
Если это сработает, компания сможет забирать ценность сразу на трёх уровнях — железо, инструменты инференса и сама модель.
Что это значит
Nemotron 3 Nano Omni — ставка на то, что следующая волна AI-агентов будет работать не только в облаке, но и локально, ближе к данным, камерам, микрофонам и корпоративным интерфейсам. Если Nvidia подтвердит заявленные цифры в реальных внедрениях, она станет не просто поставщиком «лопат» для AI-бума, а одним из самых сильных игроков на рынке самих моделей.