NVIDIA apresentou Nemotron 3 Nano Omni para documentos longos, áudio, vídeo e agentes de IA
NVIDIA apresentou o Nemotron 3 Nano Omni — um modelo multimodal para documentos, áudio, vídeo e tarefas de agentes em interfaces. Ele consegue processar…
Processado por IA de Hugging Face Blog; editado por Hamidun News
28 de abril de 2026, a NVIDIA apresentou o Nemotron 3 Nano Omni — um modelo multimodal com contexto longo para documentos, áudio, vídeo e cenários de agentes em interfaces. A empresa aposta em tarefas práticas: desde análise de PDFs complexos e gravações de tela até reconhecimento de fala e raciocínio entre múltiplos tipos de dados simultaneamente.
Quais tarefas o Nemotron 3 Nano Omni resolve?
O Nemotron 3 Nano Omni é posicionado não simplesmente como um modelo OCR ou mais um VLM para imagens. A NVIDIA o descreve como um sistema universal para cinco classes de cargas de trabalho: análise de documentos reais, reconhecimento automático de fala, compreensão de vídeos longos com áudio, assistência em cenários GUI e raciocínio multimodal geral. Estamos falando não sobre exemplos de demonstração curtos, mas sobre documentos com tabelas, fórmulas, referências cruzadas entre páginas, slides, capturas de tela e gravações de tela com comentários de voz.
No cenário de documento, o modelo, de acordo com a empresa, processa arquivos com mais de 100 páginas e deve manter simultaneamente tanto detalhes finos quanto a estrutura geral. Para áudio e vídeo, o foco é em materiais longos: vídeos educacionais, reuniões com slides, demonstrações de produtos e gravações de suporte. Para tarefas de agentes, trabalhar com capturas de tela e estado de interface é importante — o modelo pode interpretar o que vê na tela e ajudar na escolha da próxima ação.
- Contratos de múltiplas páginas, relatórios e documentos técnicos
- Gravações de tela e tutoriais com acompanhamento de voz
- Reconhecimento de fala longa com ruído, sotaques e diferentes locutores
- Análise de GUI e capturas de tela para cenários de computer-use
O que há dentro do modelo
A arquitetura é construída em torno da espinha dorsal de linguagem Nemotron 3 Nano 30B-A3B e dois codificadores especializados: C-RADIOv4-H para dados visuais e Parakeet-TDT-0.6B para áudio. A conexão entre modalidades e o LLM é implementada através de projetores leves para trazer tudo em uma única sequência de tokens.
Dentro da espinha dorsal, a NVIDIA usa uma abordagem híbrida: 23 camadas Mamba para contexto longo, 23 camadas MoE com 128 especialistas e roteamento top-6, bem como 6 camadas de atenção para conexões globais e raciocínio complexo. Ênfase especial é colocada no trabalho eficiente com dados visuais densos. Em vez de tiling, que foi usado na versão anterior, o modelo recebeu resolução dinâmica em proporção de aspecto nativa: de 1024 a 13312 patches visuais são alocados por imagem.
Para vídeo, dois mecanismos de compressão são aplicados. Conv3D combina pares de quadros adjacentes antes de alimentar o ViT, e EVS no estágio de inferência descarta tokens estáticos e mantém apenas mudanças dinâmicas. Para áudio, a transição para entrada nativa é importante: o modelo funciona não apenas com uma transcrição, mas com a própria faixa de áudio, e foi treinado em segmentos de até 20 minutos, com contexto LLM geral declarado em mais de cinco horas.
Resultados e disponibilidade
Em benchmarks publicados, o Nemotron 3 Nano Omni fez melhorias significativas em comparação com o Nemotron Nano V2 VL e frequentemente supera o Qwen3-Omni 30B-A3B. De acordo com a NVIDIA, o modelo marca 57,5 no MMLongBench-Doc versus 38,0 para a versão anterior, 65,8 no OCRBenchV2-En e 63,6 no raciocínio CharXiv. Em tarefas GUI, ele mostra 47,4 no OSWorld versus 11,0 para o modelo anterior, e em vídeo multimodal — 72,2 no Video-MME, 55,4 no WorldSense e 74,1 no DailyOmni.
Para áudio, 89,4 no VoiceBench e 5,95 WER no HF Open ASR são declarados, onde menor é melhor. Não menos importante para desenvolvedores é custo e velocidade. A NVIDIA escreve sobre um aumento de 7,4x em eficiência do sistema em cenários multi-documento e 9,2x em casos de uso de vídeo em comparação com outros modelos multimodais abertos com interatividade comparável.
A empresa também afirma até 2,9x mais velocidade para raciocínio de single-stream em tarefas multimodais. Checkpoints já estão postados no Hugging Face em formatos BF16, FP8 e NVFP4, para que o modelo possa ser testado não apenas como um lançamento de pesquisa, mas também como base para pipelines aplicados.
O que isso significa
A NVIDIA está claramente se movendo não em direção a mais uma demonstração de vitrine, mas em direção a cenários empresariais práticos onde você precisa simultaneamente ler documentos longos, entender voz, ver a interface e manter contexto grande sem um aumento acentuado no custo. Se as métricas reclamadas forem confirmadas em integrações reais, o Nemotron 3 Nano Omni será um forte candidato com pesos abertos para documento AI, compreensão de vídeo e agentes de computer-use.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.