TNW→ original

Nvidia a lancé Nemotron 3 Nano Omni — un modèle multimodal ouvert pour les agents de périphérie

Nvidia a présenté Nemotron 3 Nano Omni — un modèle multimodal ouvert pour les agents de périphérie qui combine texte, images, audio, vidéo et documents dans…

Traité par IA depuis TNW ; édité par Hamidun News
Nvidia a lancé Nemotron 3 Nano Omni — un modèle multimodal ouvert pour les agents de périphérie
Source : TNW. Collage: Hamidun News.
◐ Écouter l'article

Nvidia le 28 avril 2026 a présenté Nemotron 3 Nano Omni — un modèle multimodal ouvert conçu pour les agents IA autonomes sur les appareils périphériques. Ce n'est pas simplement une autre version pour l'écosystème CUDA : l'entreprise montre qu'elle veut gagner de l'argent non seulement sur le matériel, mais aussi sur les modèles eux-mêmes.

Ce que le modèle peut faire

Nemotron 3 Nano Omni combine la compréhension du texte, des images, de l'audio et de la vidéo dans une seule architecture. Le modèle fonctionne également avec des documents, des diagrammes et des interfaces graphiques, et génère des réponses en texte. Essentiellement, Nvidia offre non pas un ensemble de plusieurs modèles séparés pour la vision, la parole et les documents, mais un seul moteur unifié pour les tâches où un agent doit simultanément voir l'écran, lire un fichier, écouter une commande vocale et réagir sans délais inutiles entre services.

L'idée clé est que le modèle est volumineux en volume total mais relativement léger en opération. Nemotron 3 Nano Omni dispose de 30 milliards de paramètres, mais seuls 3 milliards sont activés à chaque étape d'inférence grâce à l'architecture mixture-of-experts. Nvidia affirme que cette approche offre des gains jusqu'à neuf fois supérieurs en débit par rapport aux modèles multimodaux ouverts comparables, et le modèle est le leader dans six benchmarks pour travailler avec des documents, des vidéos et de l'audio.

La composante texte de base a été entraînée sur 25 billions de tokens et supporte une fenêtre contextuelle jusqu'à 256 mille tokens. En interne, le modèle utilise un schéma hybride Mamba-Transformer. Selon la description de Nvidia, il combine 23 couches Mamba-2, 23 couches mixture-of-experts et six couches grouped-query attention.

Chaque token est routé vers seulement six des 128 experts plus un expert partagé, donc les calculs ne se gonflent pas. Pour la vidéo, des convolutions tridimensionnelles sont appliquées qui tiennent compte du mouvement entre les images, plutôt que de simplement analyser la vidéo comme un ensemble d'images statiques. Cette approche d'ingénierie est ce qui devrait rendre le modèle adapté aux agents en temps réel sur une seule GPU.

  • 30 milliards de paramètres au total, 3 milliards actifs à l'inférence
  • déploiement possible sur une seule GPU, sans cluster de serveurs
  • usage commercial autorisé selon l'accord Nvidia Open Model
  • modèle disponible sur Hugging Face et via Nvidia NIM
  • les entrées incluent texte, images, audio, vidéo, documents et interfaces graphiques

Pourquoi cela pour Nvidia

Au cours des deux dernières années, Nvidia a gagné principalement en tant que fournisseur d'infrastructure : GPUs, réseaux, CUDA et tous les logiciels qui les entourent. Mais la famille Nemotron est déjà devenue une direction séparée, et maintenant l'entreprise fait un mouvement plus audacieux — positionnant son propre modèle comme une base prête pour les agents IA industriels. La logique est simple : si le modèle est optimisé pour le matériel Nvidia, et le matériel est optimisé pour les modèles Nvidia, l'entreprise obtient le contrôle sur presque toute la pile, comme Google, Amazon ou Microsoft dans leurs écosystèmes cloud.

C'est pourquoi le lancement est présenté non comme une démonstration de capacités de laboratoire, mais comme un produit pour le déploiement. Parmi les premiers utilisateurs et partenaires, Nvidia cite Foxconn, Palantir, Aible, ASI, Eka Care et H Company ; Dell, DocuSign, Infosys, Oracle et Zefr évaluent le modèle pour la production. Les scénarios ne sont pas non plus orientés vers les consommateurs : inspection visuelle en usine, traitement de documents, agents vocaux et compréhension d'écran pour les systèmes computer-use.

Le modèle peut être déployé via Amazon SageMaker JumpStart, OpenRouter, vLLM, SGLang, Ollama, llama.cpp et TensorRT-LLM — Nvidia veut donc le rendre disponible dans n'importe quelle pile familière. Face aux concurrents, le pari semble assez précis.

Google dispose de Gemini multimodal et de Gemini Nano pour les appareils, Meta possède une forte gamme de Llama, OpenAI reste la référence commerciale avec les modèles GPT. Mais Nvidia tente d'assembler une rare combinaison de quatre propriétés à la fois : multimodalité, poids ouverts, licence commerciale et fonctionnement sur du matériel de périphérie sans exigences d'échelle cloud. Si cela fonctionne, l'entreprise sera capable de capturer de la valeur à trois niveaux simultanément — le matériel, les outils d'inférence et le modèle lui-même.

Ce que cela signifie

Nemotron 3 Nano Omni est un pari selon lequel la prochaine vague d'agents IA fonctionnera non seulement dans le cloud mais aussi localement, plus près des données, des caméras, des microphones et des interfaces d'entreprise. Si Nvidia confirme les chiffres annoncés dans les déploiements réels, elle deviendra non seulement un fournisseur de « pioches et pelles » pour le boom de l'IA, mais l'un des acteurs les plus puissants du marché des modèles lui-même.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…