AWS Machine Learning Blog→ original

NVIDIA lance Nemotron 3 Nano Omni sur Amazon SageMaker JumpStart le jour du lancement

NVIDIA a rendu Nemotron 3 Nano Omni disponible sur Amazon SageMaker JumpStart le jour du lancement. Le modèle combine le traitement du texte, des images, de…

Traité par IA depuis AWS Machine Learning Blog ; édité par Hamidun News
NVIDIA lance Nemotron 3 Nano Omni sur Amazon SageMaker JumpStart le jour du lancement
Source : AWS Machine Learning Blog. Collage: Hamidun News.
◐ Écouter l'article

Le 28 avril 2026, NVIDIA a ajouté le modèle multimodal Nemotron 3 Nano Omni à Amazon SageMaker JumpStart le jour de son lancement. Pour les équipes sur AWS, cela raccourcit le chemin du lancement du modèle à son pilote : le service est déjà prêt pour le déploiement et l'exécution des inférences.

Qu'est-ce que ce modèle

Nemotron 3 Nano Omni est un LLM multimodal ouvert avec 30 milliards de paramètres totaux et 3 milliards actifs. Il est construit sur une architecture hybride Mamba2 Transformer Hybrid Mixture of Experts. NVIDIA a assemblé le modèle à partir de trois composants : le noyau linguistique Nemotron 3 Nano, l'encodeur visuel CRADIO v4-H pour les images et les vidéos, et l'encodeur vocal Parakeet pour l'audio.

Le modèle accepte la vidéo, l'audio, les images et le texte en entrée et retourne des réponses textuelles en sortie. Selon la documentation AWS, le modèle est conçu non seulement pour le chat, mais aussi pour les scénarios d'agents. Il supporte une fenêtre de contexte jusqu'à 131 mille tokens, le raisonnement, l'appel d'outils, les réponses JSON et les horodatages au niveau des mots pour la transcription.

Dans SageMaker JumpStart, le modèle est disponible en FP8, mettant l'accent sur l'équilibre entre la qualité et l'efficacité. Sur l'aspect des licences, qui importe pour l'utilisation commerciale, Nemotron 3 Nano Omni est distribué selon le Contrat de Modèle Ouvert NVIDIA.

Le modèle est destiné à « voir, entendre et raisonner » sur plusieurs

modalités en une seule passe d'inférence.

Où le modèle est utile

L'idée principale de l'annonce est d'éliminer le zoo de modèles séparés pour la vision, la parole et le texte. Dans un système d'agent entreprise typique, chacun de ces modules ajoute de la latence, complique l'orchestration et brise le contexte global. AWS et NVIDIA proposent d'utiliser Nemotron 3 Nano Omni comme une couche de perception unique : le modèle lit l'écran, comprend les documents, transcrit la parole et analyse les vidéos, tandis que le reste de la logique de l'agent fonctionne sur une seule image cohérente.

  • Agents informatiques qui naviguent dans les interfaces, les tableaux de bord et les navigateurs
  • Intelligence documentaire pour les contrats, les SOW, les documents financiers, les tableaux et les captures d'écran
  • Analyse des appels, des réunions et d'autres contenus audio-vidéo dans les services d'assistance
  • Vérification des événements visuels, tels que les livraisons ou les commandes, où l'OCR et le contexte temporel sont nécessaires

Le modèle a des limites d'entrée assez claires, et elles semblent déjà pratiques pour les pilotes. Vidéo — MP4 jusqu'à 2 minutes et jusqu'à 256 images, audio — WAV ou MP3 d'une durée jusqu'à une heure, images — JPEG et PNG, texte — jusqu'à 131 mille tokens. Ce n'est pas une machine universelle illimitée, mais pour les assistants internes, les pipelines d'examen et l'automatisation des tâches opérationnelles, la plage est plus que fonctionnelle. En conclusion, AWS déclare séparément un débit jusqu'à 9 fois supérieur par rapport aux modèles omni ouverts alternatifs.

Comment exécuter le modèle

SageMaker JumpStart présente ce lancement comme un déploiement en un clic. Le scénario de base est simple : ouvrir SageMaker Studio, aller à la section JumpStart, trouver Nemotron 3 Nano Omni, sélectionner la fiche du modèle et cliquer sur Deploy. Avant cela, AWS vous demande de vérifier trois choses : la disponibilité du compte, les permissions d'accès à JumpStart et les quotas d'instances GPU comme ml.

p4d.24xlarge ou ml.p5.

48xlarge. Il y a donc un démarrage rapide, mais cela dépend toujours de la préparation de l'infrastructure d'entreprise et du budget GPU. Pour les équipes qui déploient des modèles par code, il existe aussi un chemin via le SDK Python de SageMaker avec un model_id prêt.

Après le déploiement, le point de terminaison accepte les requêtes multimodales : vous pouvez décrire une image, résumer un enregistrement de réunion ou transcrire un appel avec les éléments d'action en évidence. AWS recommande également deux modes d'inférence : thinking pour le raisonnement complexe avec température 0.6, top_p 0.

95 et max_tokens 20480, et instruct pour les tâches plus directes où la vitesse compte. Après les expériences, il est préférable de supprimer immédiatement le point de terminaison pour éviter d'accumuler des coûts supplémentaires.

Ce que cela signifie

L'apparition de Nemotron 3 Nano Omni dans JumpStart le jour du lancement montre qu'AWS accélère la livraison de modèles ouverts frais directement dans le flux de travail de production. Pour le commerce, c'est un signal positif : les agents multimodaux passent progressivement d'un ensemble de composants disparates à une pile de produits plus cohérente qui peut être testée sur vos propres données sans assemblage long à partir de zéro.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…