NVIDIA a présenté Nemotron 3 Nano Omni pour les documents longs, l'audio, la vidéo et les agents IA
NVIDIA a présenté Nemotron 3 Nano Omni — un modèle multimodal pour les documents, l'audio, la vidéo et les tâches d'agents dans les interfaces. Il peut…
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
28 avril 2026, NVIDIA a présenté Nemotron 3 Nano Omni — un modèle multimodal avec contexte long pour les documents, l'audio, la vidéo et les scénarios d'agents dans les interfaces. L'entreprise mise sur les tâches pratiques : de l'analyse de PDFs complexes et d'enregistrements d'écran à la reconnaissance vocale et au raisonnement sur plusieurs types de données simultanément.
Quelles tâches Nemotron 3 Nano Omni résout-il ?
Nemotron 3 Nano Omni n'est pas positionné simplement comme un modèle OCR ou un autre VLM pour les images. NVIDIA le décrit comme un système universel pour cinq classes de charges de travail : analyse de documents réels, reconnaissance automatique de la parole, compréhension de longues vidéos avec audio, assistance dans des scénarios GUI et raisonnement multimodal général. Nous parlons non pas d'exemples de démonstration courts, mais de documents avec des tableaux, des formules, des références croisées entre pages, des diapositives, des captures d'écran et des enregistrements d'écran avec des commentaires vocaux.
Dans le scénario de document, le modèle, selon l'entreprise, traite des fichiers de plus de 100 pages et doit maintenir simultanément les petits détails et la structure générale. Pour l'audio et la vidéo, l'accent est mis sur les longs matériaux : vidéos éducatives, réunions avec diapositives, démonstrations de produits et enregistrements d'assistance. Pour les tâches d'agents, travailler avec des captures d'écran et l'état de l'interface est important — le modèle peut interpréter ce qu'il voit à l'écran et aider au choix de l'action suivante.
- Contrats multipages, rapports et documents techniques
- Enregistrements d'écran et tutoriels avec accompagnement vocal
- Reconnaissance de la parole longue avec bruit, accents et différents locuteurs
- Analyse GUI et captures d'écran pour les scénarios computer-use
Ce qu'il y a à l'intérieur du modèle
L'architecture est construite autour du backbone de langage Nemotron 3 Nano 30B-A3B et de deux codeurs spécialisés : C-RADIOv4-H pour les données visuelles et Parakeet-TDT-0.6B pour l'audio. La connexion entre les modalités et le LLM est implémentée via des projecteurs légers pour ramener tout en une seule séquence de tokens.
À l'intérieur du backbone, NVIDIA utilise une approche hybride : 23 couches Mamba pour le contexte long, 23 couches MoE avec 128 experts et routage top-6, ainsi que 6 couches d'attention pour les connexions globales et le raisonnement complexe. Un accent particulier est mis sur le travail efficace avec des données visuelles denses. Au lieu du tiling, qui a été utilisé dans la version précédente, le modèle a reçu une résolution dynamique au rapport d'aspect natif : 1024 à 13312 patchs visuels sont alloués par image.
Pour la vidéo, deux mécanismes de compression sont appliqués. Conv3D combine les paires d'images adjacentes avant de les envoyer au ViT, et EVS au stade de l'inférence élimine les tokens statiques et conserve uniquement les changements dynamiques. Pour l'audio, la transition vers l'entrée native est importante : le modèle fonctionne non seulement avec une transcription, mais aussi avec la piste audio elle-même, et a été entraîné sur des segments jusqu'à 20 minutes, avec un contexte LLM global déclaré à plus de cinq heures.
Résultats et disponibilité
Selon les benchmarks publiés, Nemotron 3 Nano Omni a fait des progrès significatifs par rapport à Nemotron Nano V2 VL et surpasse souvent Qwen3-Omni 30B-A3B. Selon NVIDIA, le modèle obtient 57,5 sur MMLongBench-Doc contre 38,0 pour la version précédente, 65,8 sur OCRBenchV2-En et 63,6 sur le raisonnement CharXiv. Dans les tâches GUI, il affiche 47,4 sur OSWorld contre 11,0 pour le modèle précédent, et en vidéo multimodale — 72,2 sur Video-MME, 55,4 sur WorldSense et 74,1 sur DailyOmni.
Pour l'audio, 89,4 sur VoiceBench et 5,95 WER sur HF Open ASR sont déclarés, où moins c'est mieux. Non moins important pour les développeurs est le coût et la vitesse. NVIDIA parle d'une augmentation de 7,4x de l'efficacité du système dans les scénarios multi-documents et de 9,2x dans les cas d'usage vidéo par rapport aux autres modèles multimodaux ouverts avec une interactivité comparable.
L'entreprise affirme également une vitesse jusqu'à 2,9x plus élevée pour le raisonnement single-stream dans les tâches multimodales. Les checkpoints sont déjà publiés sur Hugging Face aux formats BF16, FP8 et NVFP4, de sorte que le modèle peut être testé non seulement comme une version de recherche, mais aussi comme base pour les pipelines appliqués.
Ce que cela signifie
NVIDIA se déplace clairement non vers une autre démonstration d'exposition, mais vers des scénarios d'entreprise pratiques où vous devez simultanément lire de longs documents, comprendre la parole, voir l'interface et maintenir un grand contexte sans une augmentation notable du coût. Si les métriques déclarées sont confirmées dans les intégrations réelles, Nemotron 3 Nano Omni sera un fort candidat avec des poids ouverts pour la IA de documents, la compréhension vidéo et les agents computer-use.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.