TNW→ original

Nvidia lançou Nemotron 3 Nano Omni — um modelo multimodal aberto para agentes de borda

Nvidia apresentou Nemotron 3 Nano Omni — um modelo multimodal aberto para agentes de borda que combina texto, imagens, áudio, vídeo e documentos em uma única…

Processado por IA de TNW; editado por Hamidun News
Nvidia lançou Nemotron 3 Nano Omni — um modelo multimodal aberto para agentes de borda
Fonte: TNW. Colagem: Hamidun News.
◐ Ouvir artigo

A Nvidia em 28 de abril de 2026 apresentou o Nemotron 3 Nano Omni — um modelo multimodal aberto projetado para agentes de IA autônomos em dispositivos de borda. Isto não é apenas outro lançamento para o ecossistema CUDA: a empresa está demonstrando que quer ganhar dinheiro não apenas com hardware, mas também com os próprios modelos.

O que o modelo consegue fazer

O Nemotron 3 Nano Omni combina compreensão de texto, imagens, áudio e vídeo em uma única arquitetura. O modelo também funciona com documentos, diagramas e interfaces gráficas, e produz respostas em texto. Essencialmente, a Nvidia oferece não um pacote de vários modelos separados para visão, fala e documentos, mas um único motor unificado para tarefas em que um agente precisa simultaneamente ver a tela, ler um arquivo, ouvir um comando de voz e responder sem delays desnecessários entre serviços.

A ideia principal é que o modelo é grande em volume total, mas relativamente leve na operação. O Nemotron 3 Nano Omni possui 30 bilhões de parâmetros, mas apenas 3 bilhões são ativados em cada passo de inferência graças à arquitetura mixture-of-experts. A Nvidia afirma que essa abordagem oferece ganhos de até nove vezes em throughput comparado com modelos multimodais abertos comparáveis, e o modelo lidera em seis benchmarks para trabalhar com documentos, vídeo e áudio.

O componente de texto base foi treinado em 25 trilhões de tokens e suporta uma janela de contexto de até 256 mil tokens. Internamente, o modelo usa um esquema híbrido Mamba-Transformer. Segundo a descrição da Nvidia, ele combina 23 camadas Mamba-2, 23 camadas mixture-of-experts e seis camadas grouped-query attention.

Cada token é roteado para apenas seis de 128 especialistas mais um especialista compartilhado, então as computações não incham. Para vídeo, são aplicadas convoluções tridimensionais que levam em conta o movimento entre quadros, em vez de simplesmente analisar o vídeo como um conjunto de imagens estáticas. Essa abordagem de engenharia é o que deveria tornar o modelo adequado para agentes em tempo real em uma única GPU.

  • 30 bilhões de parâmetros no total, 3 bilhões ativos na inferência
  • implantação possível em uma única GPU, sem um cluster de servidores
  • uso comercial permitido sob o Nvidia Open Model Agreement
  • modelo disponível no Hugging Face e via Nvidia NIM
  • as entradas incluem texto, imagens, áudio, vídeo, documentos e interfaces gráficas

Por que isso para a Nvidia

Nos últimos dois anos, a Nvidia venceu principalmente como fornecedor de infraestrutura: GPUs, redes, CUDA e todo o software ao seu redor. Mas a família Nemotron já se tornou uma direção separada, e agora a empresa está fazendo um movimento mais audacioso — posicionando seu próprio modelo como uma base pronta para agentes de IA industrial. A lógica é simples: se o modelo é otimizado para hardware Nvidia, e o hardware é otimizado para modelos Nvidia, a empresa ganha controle sobre quase todo o stack, como Google, Amazon ou Microsoft em seus ecossistemas de nuvem.

É por isso que o lançamento é apresentado não como uma demonstração de capacidades de laboratório, mas como um produto para implementação. Entre os primeiros usuários e parceiros, a Nvidia cita Foxconn, Palantir, Aible, ASI, Eka Care e H Company; Dell, DocuSign, Infosys, Oracle e Zefr estão avaliando o modelo para produção. Os cenários também não são orientados ao consumidor: inspeção visual em fábricas, processamento de documentos, agentes de voz e compreensão de tela para sistemas de computer-use.

O modelo pode ser implantado através do Amazon SageMaker JumpStart, OpenRouter, vLLM, SGLang, Ollama, llama.cpp e TensorRT-LLM — então a Nvidia quer torná-lo disponível em qualquer stack familiar. Contra concorrentes, a aposta parece bastante precisa.

Google tem Gemini multimodal e Gemini Nano para dispositivos, Meta tem uma forte linha de Llama, OpenAI permanece como o benchmark comercial com modelos GPT. Mas a Nvidia está tentando montar uma rara combinação de quatro propriedades ao mesmo tempo: multimodalidade, pesos abertos, licença comercial e operação em hardware de borda sem requisitos de escala de nuvem. Se isto funcionar, a empresa será capaz de capturar valor em três níveis simultaneamente — hardware, ferramentas de inferência e o próprio modelo.

O que significa

O Nemotron 3 Nano Omni é uma aposta de que a próxima onda de agentes de IA operará não apenas na nuvem, mas também localmente, mais perto de dados, câmeras, microfones e interfaces corporativas. Se a Nvidia confirmar os números indicados em implantações reais, ela se tornará não apenas um fornecedor de "picaretas e pás" para o boom de IA, mas um dos jogadores mais fortes no mercado de modelos em si.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…