NVIDIA lançou Nemotron 3 Nano 4B — um modelo híbrido compacto para execução em dispositivos
A NVIDIA lançou o Nemotron 3 Nano 4B, um modelo de linguagem compacto para execução direta em dispositivos, sem depender da nuvem. A arquitetura híbrida…
Processado por IA de Hugging Face Blog; editado por Hamidun News
A NVIDIA abriu o acesso ao Nemotron 3 Nano 4B — um modelo de linguagem compacto com 4 bilhões de parâmetros, desenvolvido especificamente para implantação em edge em dispositivos Jetson, RTX GPU e DGX Spark. Este é o primeiro modelo 4B da NVIDIA construído em uma arquitetura híbrida Mamba-Transformer com foco em consumo mínimo de memória e alta velocidade de inferência.
Arquitetura Híbrida da Nova Geração
No núcleo do Nemotron 3 Nano 4B há uma construção de 42 camadas: 21 blocos Mamba, 4 blocos Attention e 17 blocos MLP. Essa proporção é atípica para modelos de linguagem deste tamanho — a maioria dos concorrentes é construída exclusivamente em transformers. As camadas Mamba processam sequências longas com complexidade de memória linear e não quadrática — esta é a principal fonte de eficiência.
Os blocos Attention são posicionados estrategicamente e preservam a precisão onde a compreensão global do contexto é crítica. Comparado ao modelo pai Nemotron Nano 9B v2, a dimensionalidade do embedding foi reduzida de 4.480 para 3.
136, o número de cabeças Mamba de 128 para 96, e o número de camadas de 56 para 42. O resultado: o menor espaço VRAM da classe 4B quando testado no RTX 4070 e latência Time-to-First-Token recorde-baixa para sequências de entrada longas.
Quatro Estágios de Treinamento
Nemotron 3 Nano 4B não é simplesmente um modelo 9B reduzido, mas um modelo com seu próprio pipeline de treinamento de quatro estágios. O primeiro é compressão via Nemotron Elastic: busca de arquitetura neural (NAS) com um roteador treinado determinou exatamente onde podar a rede 9B. O roteador operava em quatro eixos: cabeças Mamba, dimensão oculta, canais FFN e profundidade do modelo. O segundo é destilação para recuperação de precisão:
- Contexto curto (8K, 63B tokens): 70% dados pós-treinamento + 30% pré-treinamento
- Contexto longo (49K, 150B tokens): expansão de janela para tarefas complexas de raciocínio
O terceiro é ajuste fino supervisionado (SFT): dois estágios cobrindo matemática, código, ciência, chat, tarefas de agente e segurança. O quarto é aprendizado por reforço de três estágios via NeMo-RL: de seguimento de instrução de turno único a múltiplos turnos com saídas JSON/XML e para chamada de função de ferramenta. A proporção de dados de raciocínio/não raciocínio é 50/50 com aperto progressivo de penalidade KL.
Números Que Importam
No Jetson Orin Nano com GGUF de 4 bits (Q4_K_M), o modelo entrega 18 tokens/seg — duas vezes mais rápido que Nemotron Nano 9B v2 no mesmo hardware. A quantização FP8 via ModelOpt mantém 100% de recuperação de precisão mediana com até 1,8X melhoria de latência/throughput em comparação com BF16.
"A quantização FP8 alcançou 100% de recuperação de precisão mediana
com até 1,8X de melhoria de latência/throughput em relação ao BF16" — da documentação técnica da NVIDIA.
Nos principais benchmarks, o modelo lidera entre concorrentes de sua classe:
- IFBench e IFEval — seguimento de instruções
- Orak — inteligência de jogo: Super Mario, Darkest Dungeon, Stardew Valley
- Tool-use — invocação de ferramenta e evitação de alucinação
- TTFT — latência mínima em sequências de entrada longas
O modelo está disponível em três variantes: BF16 (precisão completa), FP8 (otimizado para RTX e GPUs de servidor), GGUF Q4_K_M (para Jetson e Llama.cpp). Os mecanismos vLLM, TRT-LLM e Hugging Face Transformers são suportados.
O Que Isso Significa
Um modelo 4B com vantagem de velocidade 2X sobre 9B em Jetson muda a equação de IA em edge: robótica, IoT, agentes locais e NPCs de jogo obtêm uma ferramenta de nível industrial sem hardware caro e sem enviar dados para a nuvem. Os pesos abertos permitem ajustar o modelo para um domínio específico sem restrições de licença.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.