AWS Machine Learning Blog→ оригинал

NVIDIA تطلق Nemotron 3 Nano Omni على Amazon SageMaker JumpStart يوم الإطلاق

جعلت NVIDIA Nemotron 3 Nano Omni متاحة على Amazon SageMaker JumpStart يوم الإطلاق. يجمع النموذج معالجة النصوص والصور والصوت والفيديو في خط أنابيب استدلال واحد و

NVIDIA تطلق Nemotron 3 Nano Omni على Amazon SageMaker JumpStart يوم الإطلاق
Источник: AWS Machine Learning Blog. Коллаж: Hamidun News.

28 апреля 2026 года NVIDIA добавила мультимодальную модель Nemotron 3 Nano Omni в Amazon SageMaker JumpStart в день релиза. Для команд на AWS это сокращает путь от анонса новой модели до пилота: сервис уже готов к развертыванию и запуску inference.

Что это за модель

Nemotron 3 Nano Omni — открытая мультимодальная LLM с 30 млрд общих параметров и 3 млрд активных. В основе лежит гибридная архитектура Mamba2 Transformer Hybrid Mixture of Experts. NVIDIA собрала модель из трех частей: языкового ядра Nemotron 3 Nano, визуального энкодера CRADIO v4-H для изображений и видео и речевого энкодера Parakeet для аудио.

На вход модель принимает видео, звук, картинки и текст, а на выходе возвращает текстовый ответ. Из описания AWS видно, что модель рассчитана не только на чат, но и на агентные сценарии. Она поддерживает контекст до 131 тысяч токенов, reasoning, tool calling, JSON-ответы и пословные таймкоды для транскрибации.

В SageMaker JumpStart модель доступна в FP8, то есть с упором на баланс между качеством и эффективностью. Для коммерческого использования важен и лицензионный момент: Nemotron 3 Nano Omni распространяется по NVIDIA Open Model Agreement.

Модель должна «видеть, слышать и рассуждать» по нескольким

модальностям за один inference pass.

Где пригодится модель

Главная идея анонса — убрать зоопарк отдельных моделей для зрения, речи и текста. В типичной корпоративной агентной системе каждый такой модуль добавляет задержку, усложняет оркестрацию и рвет общий контекст. AWS и NVIDIA предлагают использовать Nemotron 3 Nano Omni как единый слой восприятия: модель читает экран, понимает документы, транскрибирует речь и анализирует видео, а остальная логика агента работает уже поверх одной согласованной картины.

  • Компьютерные агенты, которые ориентируются в интерфейсах, dashboard’ах и браузере Document intelligence для контрактов, SOW, финансовых документов, таблиц и скриншотов Анализ звонков, встреч и другого аудио-видео контента в службе поддержки * Проверка визуальных событий, например доставки или заказов, когда нужны OCR и временной контекст У модели довольно понятные лимиты входа, и они уже выглядят практичными для пилотов. Видео — MP4 до 2 минут и до 256 кадров, аудио — WAV или MP3 длительностью до часа, изображения — JPEG и PNG, текст — до 131 тысяч токенов. Это не универсальный безлимитный комбайн, но для внутренних ассистентов, review-пайплайнов и автоматизации операционных задач диапазон более чем рабочий. В финале AWS отдельно заявляет до 9 раз более высокий throughput по сравнению с альтернативными открытыми omni-моделями.

Как запустить модель SageMaker JumpStart подает этот релиз как one-click deployment.

Базовый сценарий простой: открыть SageMaker Studio, перейти в раздел JumpStart, найти Nemotron 3 Nano Omni, выбрать карточку модели и нажать Deploy. До этого AWS просит проверить три вещи: наличие аккаунта, права доступа к JumpStart и квоты на GPU-инстансы, например ml.p4d.

24xlarge или ml.p5.48xlarge.

То есть быстрый старт есть, но он все равно упирается в корпоративную готовность инфраструктуры и бюджет на GPU. Для команд, которые разворачивают модели кодом, есть и путь через SageMaker Python SDK с готовым model_id. После деплоя endpoint принимает мультимодальные запросы: можно описывать изображение, суммировать видеозапись встречи или транскрибировать звонок с выделением action items.

AWS также рекомендует два режима inference: thinking для сложного рассуждения с temperature 0.6, top_p 0.95 и max_tokens 20480, и instruct для более прямых задач, где важнее скорость.

После экспериментов endpoint лучше сразу удалить, чтобы не копить лишние расходы.

Что это значит

Появление Nemotron 3 Nano Omni в JumpStart в день релиза показывает, что AWS ускоряет доставку свежих open-моделей прямо в рабочий контур. Для бизнеса это хороший сигнал: мультимодальные агенты постепенно переходят из набора разрозненных компонентов в более цельный продуктовый стек, который можно проверить на своих данных без долгой сборки с нуля.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…