Hugging Face Blog→ original

NVIDIA apresentou Nemotron 3 Nano Omni para documentos longos, áudio, vídeo e agentes de IA

NVIDIA apresentou o Nemotron 3 Nano Omni — um modelo multimodal para documentos, áudio, vídeo e tarefas de agentes em interfaces. Ele consegue processar…

Processado por IA de Hugging Face Blog; editado por Hamidun News
NVIDIA apresentou Nemotron 3 Nano Omni para documentos longos, áudio, vídeo e agentes de IA
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

28 de abril de 2026, a NVIDIA apresentou o Nemotron 3 Nano Omni — um modelo multimodal com contexto longo para documentos, áudio, vídeo e cenários de agentes em interfaces. A empresa aposta em tarefas práticas: desde análise de PDFs complexos e gravações de tela até reconhecimento de fala e raciocínio entre múltiplos tipos de dados simultaneamente.

Quais tarefas o Nemotron 3 Nano Omni resolve?

O Nemotron 3 Nano Omni é posicionado não simplesmente como um modelo OCR ou mais um VLM para imagens. A NVIDIA o descreve como um sistema universal para cinco classes de cargas de trabalho: análise de documentos reais, reconhecimento automático de fala, compreensão de vídeos longos com áudio, assistência em cenários GUI e raciocínio multimodal geral. Estamos falando não sobre exemplos de demonstração curtos, mas sobre documentos com tabelas, fórmulas, referências cruzadas entre páginas, slides, capturas de tela e gravações de tela com comentários de voz.

No cenário de documento, o modelo, de acordo com a empresa, processa arquivos com mais de 100 páginas e deve manter simultaneamente tanto detalhes finos quanto a estrutura geral. Para áudio e vídeo, o foco é em materiais longos: vídeos educacionais, reuniões com slides, demonstrações de produtos e gravações de suporte. Para tarefas de agentes, trabalhar com capturas de tela e estado de interface é importante — o modelo pode interpretar o que vê na tela e ajudar na escolha da próxima ação.

  • Contratos de múltiplas páginas, relatórios e documentos técnicos
  • Gravações de tela e tutoriais com acompanhamento de voz
  • Reconhecimento de fala longa com ruído, sotaques e diferentes locutores
  • Análise de GUI e capturas de tela para cenários de computer-use

O que há dentro do modelo

A arquitetura é construída em torno da espinha dorsal de linguagem Nemotron 3 Nano 30B-A3B e dois codificadores especializados: C-RADIOv4-H para dados visuais e Parakeet-TDT-0.6B para áudio. A conexão entre modalidades e o LLM é implementada através de projetores leves para trazer tudo em uma única sequência de tokens.

Dentro da espinha dorsal, a NVIDIA usa uma abordagem híbrida: 23 camadas Mamba para contexto longo, 23 camadas MoE com 128 especialistas e roteamento top-6, bem como 6 camadas de atenção para conexões globais e raciocínio complexo. Ênfase especial é colocada no trabalho eficiente com dados visuais densos. Em vez de tiling, que foi usado na versão anterior, o modelo recebeu resolução dinâmica em proporção de aspecto nativa: de 1024 a 13312 patches visuais são alocados por imagem.

Para vídeo, dois mecanismos de compressão são aplicados. Conv3D combina pares de quadros adjacentes antes de alimentar o ViT, e EVS no estágio de inferência descarta tokens estáticos e mantém apenas mudanças dinâmicas. Para áudio, a transição para entrada nativa é importante: o modelo funciona não apenas com uma transcrição, mas com a própria faixa de áudio, e foi treinado em segmentos de até 20 minutos, com contexto LLM geral declarado em mais de cinco horas.

Resultados e disponibilidade

Em benchmarks publicados, o Nemotron 3 Nano Omni fez melhorias significativas em comparação com o Nemotron Nano V2 VL e frequentemente supera o Qwen3-Omni 30B-A3B. De acordo com a NVIDIA, o modelo marca 57,5 no MMLongBench-Doc versus 38,0 para a versão anterior, 65,8 no OCRBenchV2-En e 63,6 no raciocínio CharXiv. Em tarefas GUI, ele mostra 47,4 no OSWorld versus 11,0 para o modelo anterior, e em vídeo multimodal — 72,2 no Video-MME, 55,4 no WorldSense e 74,1 no DailyOmni.

Para áudio, 89,4 no VoiceBench e 5,95 WER no HF Open ASR são declarados, onde menor é melhor. Não menos importante para desenvolvedores é custo e velocidade. A NVIDIA escreve sobre um aumento de 7,4x em eficiência do sistema em cenários multi-documento e 9,2x em casos de uso de vídeo em comparação com outros modelos multimodais abertos com interatividade comparável.

A empresa também afirma até 2,9x mais velocidade para raciocínio de single-stream em tarefas multimodais. Checkpoints já estão postados no Hugging Face em formatos BF16, FP8 e NVFP4, para que o modelo possa ser testado não apenas como um lançamento de pesquisa, mas também como base para pipelines aplicados.

O que isso significa

A NVIDIA está claramente se movendo não em direção a mais uma demonstração de vitrine, mas em direção a cenários empresariais práticos onde você precisa simultaneamente ler documentos longos, entender voz, ver a interface e manter contexto grande sem um aumento acentuado no custo. Se as métricas reclamadas forem confirmadas em integrações reais, o Nemotron 3 Nano Omni será um forte candidato com pesos abertos para documento AI, compreensão de vídeo e agentes de computer-use.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…