NVIDIA lança Nemotron 3 Nano Omni no Amazon SageMaker JumpStart no dia do lançamento
NVIDIA disponibilizou Nemotron 3 Nano Omni no Amazon SageMaker JumpStart no dia do lançamento. O modelo combina processamento de texto, imagem, áudio e vídeo…
Processado por IA de AWS Machine Learning Blog; editado por Hamidun News
Em 28 de abril de 2026, a NVIDIA adicionou o modelo multimodal Nemotron 3 Nano Omni ao Amazon SageMaker JumpStart no dia de seu lançamento. Para equipes na AWS, isso encurta o caminho do anúncio da modelo até o piloto: o serviço já está pronto para deploy e execução de inferência.
O que é este modelo
Nemotron 3 Nano Omni é uma LLM multimodal aberta com 30 bilhões de parâmetros totais e 3 bilhões ativos. É construída em uma arquitetura híbrida Mamba2 Transformer Hybrid Mixture of Experts. A NVIDIA montou o modelo a partir de três componentes: o núcleo de linguagem Nemotron 3 Nano, o codificador visual CRADIO v4-H para imagens e vídeo, e o codificador de fala Parakeet para áudio.
O modelo aceita vídeo, áudio, imagens e texto como entrada e retorna respostas em texto como saída. De acordo com a documentação da AWS, o modelo é projetado não apenas para chat, mas também para cenários com agentes. Suporta uma janela de contexto de até 131 mil tokens, raciocínio, chamada de ferramentas, respostas JSON e timestamps em nível de palavra para transcrição.
No SageMaker JumpStart, o modelo está disponível em FP8, enfatizando o equilíbrio entre qualidade e eficiência. No aspecto de licenciamento, que importa para uso comercial, Nemotron 3 Nano Omni é distribuído sob o Acordo de Modelo Aberto NVIDIA.
O modelo é feito para "ver, ouvir e raciocinar" em múltiplas
modalidades em uma única passagem de inferência.
Onde o modelo é útil
A ideia principal do anúncio é eliminar o zoo de modelos separados para visão, fala e texto. Em um sistema de agente empresarial típico, cada módulo desses adiciona latência, complica a orquestração e quebra o contexto geral. AWS e NVIDIA propõem usar Nemotron 3 Nano Omni como uma única camada de percepção: o modelo lê a tela, entende documentos, transcreve fala e analisa vídeo, enquanto o resto da lógica do agente funciona sobre uma única visão unificada.
- Agentes de computador que navegam em interfaces, dashboards e navegadores
- Inteligência de documentos para contratos, SOWs, documentos financeiros, tabelas e screenshots
- Análise de chamadas, reuniões e outro conteúdo de áudio-vídeo em serviços de suporte
- Verificação de eventos visuais, como entregas ou pedidos, onde OCR e contexto temporal são necessários
O modelo tem limites de entrada bastante claros, e eles já parecem práticos para pilotos. Vídeo — MP4 até 2 minutos e até 256 quadros, áudio — WAV ou MP3 com duração de até uma hora, imagens — JPEG e PNG, texto — até 131 mil tokens. Isso não é uma máquina universal ilimitada, mas para assistentes internos, pipelines de revisão e automação de tarefas operacionais, o intervalo é mais que aceitável. Em conclusão, a AWS declara separadamente até 9 vezes mais throughput em comparação com modelos omni abertos alternativos.
Como executar o modelo
SageMaker JumpStart apresenta este lançamento como um deploy de um clique. O cenário básico é direto: abrir SageMaker Studio, ir para a seção JumpStart, encontrar Nemotron 3 Nano Omni, selecionar a carta do modelo e clicar em Deploy. Antes disso, a AWS pede que você verifique três coisas: disponibilidade de conta, permissões de acesso ao JumpStart e quotas de instâncias GPU, como ml.
p4d.24xlarge ou ml.p5.
48xlarge. Então há um início rápido, mas ainda depende da prontidão da infraestrutura empresarial e do orçamento de GPU. Para equipes que implantam modelos por código, há também um caminho através do SDK Python do SageMaker com um model_id pronto.
Após o deploy, o endpoint aceita solicitações multimodais: você pode descrever uma imagem, resumir uma gravação de reunião ou transcrever uma chamada com items de ação destacados. A AWS também recomenda dois modos de inferência: thinking para raciocínio complexo com temperatura 0.6, top_p 0.
95 e max_tokens 20480, e instruct para tarefas mais diretas onde a velocidade importa. Após experimentos, é melhor deletar o endpoint imediatamente para evitar acumular custos extras.
O que isso significa
O aparecimento de Nemotron 3 Nano Omni no JumpStart no dia do lançamento mostra que a AWS está acelerando a entrega de modelos abertos frescos diretamente para o fluxo de trabalho em produção. Para negócios, este é um sinal positivo: agentes multimodais estão gradualmente transitando de um conjunto de componentes díspares para uma stack de produtos mais coesa que pode ser testada em seus próprios dados sem montagem longa do zero.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.