Nvidia lançou Nemotron 3 Nano Omni — um modelo multimodal aberto para agentes de borda
Nvidia apresentou Nemotron 3 Nano Omni — um modelo multimodal aberto para agentes de borda que combina texto, imagens, áudio, vídeo e documentos em uma única…
Processado por IA de TNW; editado por Hamidun News
A Nvidia em 28 de abril de 2026 apresentou o Nemotron 3 Nano Omni — um modelo multimodal aberto projetado para agentes de IA autônomos em dispositivos de borda. Isto não é apenas outro lançamento para o ecossistema CUDA: a empresa está demonstrando que quer ganhar dinheiro não apenas com hardware, mas também com os próprios modelos.
O que o modelo consegue fazer
O Nemotron 3 Nano Omni combina compreensão de texto, imagens, áudio e vídeo em uma única arquitetura. O modelo também funciona com documentos, diagramas e interfaces gráficas, e produz respostas em texto. Essencialmente, a Nvidia oferece não um pacote de vários modelos separados para visão, fala e documentos, mas um único motor unificado para tarefas em que um agente precisa simultaneamente ver a tela, ler um arquivo, ouvir um comando de voz e responder sem delays desnecessários entre serviços.
A ideia principal é que o modelo é grande em volume total, mas relativamente leve na operação. O Nemotron 3 Nano Omni possui 30 bilhões de parâmetros, mas apenas 3 bilhões são ativados em cada passo de inferência graças à arquitetura mixture-of-experts. A Nvidia afirma que essa abordagem oferece ganhos de até nove vezes em throughput comparado com modelos multimodais abertos comparáveis, e o modelo lidera em seis benchmarks para trabalhar com documentos, vídeo e áudio.
O componente de texto base foi treinado em 25 trilhões de tokens e suporta uma janela de contexto de até 256 mil tokens. Internamente, o modelo usa um esquema híbrido Mamba-Transformer. Segundo a descrição da Nvidia, ele combina 23 camadas Mamba-2, 23 camadas mixture-of-experts e seis camadas grouped-query attention.
Cada token é roteado para apenas seis de 128 especialistas mais um especialista compartilhado, então as computações não incham. Para vídeo, são aplicadas convoluções tridimensionais que levam em conta o movimento entre quadros, em vez de simplesmente analisar o vídeo como um conjunto de imagens estáticas. Essa abordagem de engenharia é o que deveria tornar o modelo adequado para agentes em tempo real em uma única GPU.
- 30 bilhões de parâmetros no total, 3 bilhões ativos na inferência
- implantação possível em uma única GPU, sem um cluster de servidores
- uso comercial permitido sob o Nvidia Open Model Agreement
- modelo disponível no Hugging Face e via Nvidia NIM
- as entradas incluem texto, imagens, áudio, vídeo, documentos e interfaces gráficas
Por que isso para a Nvidia
Nos últimos dois anos, a Nvidia venceu principalmente como fornecedor de infraestrutura: GPUs, redes, CUDA e todo o software ao seu redor. Mas a família Nemotron já se tornou uma direção separada, e agora a empresa está fazendo um movimento mais audacioso — posicionando seu próprio modelo como uma base pronta para agentes de IA industrial. A lógica é simples: se o modelo é otimizado para hardware Nvidia, e o hardware é otimizado para modelos Nvidia, a empresa ganha controle sobre quase todo o stack, como Google, Amazon ou Microsoft em seus ecossistemas de nuvem.
É por isso que o lançamento é apresentado não como uma demonstração de capacidades de laboratório, mas como um produto para implementação. Entre os primeiros usuários e parceiros, a Nvidia cita Foxconn, Palantir, Aible, ASI, Eka Care e H Company; Dell, DocuSign, Infosys, Oracle e Zefr estão avaliando o modelo para produção. Os cenários também não são orientados ao consumidor: inspeção visual em fábricas, processamento de documentos, agentes de voz e compreensão de tela para sistemas de computer-use.
O modelo pode ser implantado através do Amazon SageMaker JumpStart, OpenRouter, vLLM, SGLang, Ollama, llama.cpp e TensorRT-LLM — então a Nvidia quer torná-lo disponível em qualquer stack familiar. Contra concorrentes, a aposta parece bastante precisa.
Google tem Gemini multimodal e Gemini Nano para dispositivos, Meta tem uma forte linha de Llama, OpenAI permanece como o benchmark comercial com modelos GPT. Mas a Nvidia está tentando montar uma rara combinação de quatro propriedades ao mesmo tempo: multimodalidade, pesos abertos, licença comercial e operação em hardware de borda sem requisitos de escala de nuvem. Se isto funcionar, a empresa será capaz de capturar valor em três níveis simultaneamente — hardware, ferramentas de inferência e o próprio modelo.
O que significa
O Nemotron 3 Nano Omni é uma aposta de que a próxima onda de agentes de IA operará não apenas na nuvem, mas também localmente, mais perto de dados, câmeras, microfones e interfaces corporativas. Se a Nvidia confirmar os números indicados em implantações reais, ela se tornará não apenas um fornecedor de "picaretas e pás" para o boom de IA, mas um dos jogadores mais fortes no mercado de modelos em si.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.