Hugging Face Blog→ original

NVIDIA lançou Nemotron 3 Nano 4B — um modelo híbrido compacto para execução em dispositivos

A NVIDIA lançou o Nemotron 3 Nano 4B, um modelo de linguagem compacto para execução direta em dispositivos, sem depender da nuvem. A arquitetura híbrida…

Processado por IA de Hugging Face Blog; editado por Hamidun News
NVIDIA lançou Nemotron 3 Nano 4B — um modelo híbrido compacto para execução em dispositivos
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A NVIDIA abriu o acesso ao Nemotron 3 Nano 4B — um modelo de linguagem compacto com 4 bilhões de parâmetros, desenvolvido especificamente para implantação em edge em dispositivos Jetson, RTX GPU e DGX Spark. Este é o primeiro modelo 4B da NVIDIA construído em uma arquitetura híbrida Mamba-Transformer com foco em consumo mínimo de memória e alta velocidade de inferência.

Arquitetura Híbrida da Nova Geração

No núcleo do Nemotron 3 Nano 4B há uma construção de 42 camadas: 21 blocos Mamba, 4 blocos Attention e 17 blocos MLP. Essa proporção é atípica para modelos de linguagem deste tamanho — a maioria dos concorrentes é construída exclusivamente em transformers. As camadas Mamba processam sequências longas com complexidade de memória linear e não quadrática — esta é a principal fonte de eficiência.

Os blocos Attention são posicionados estrategicamente e preservam a precisão onde a compreensão global do contexto é crítica. Comparado ao modelo pai Nemotron Nano 9B v2, a dimensionalidade do embedding foi reduzida de 4.480 para 3.

136, o número de cabeças Mamba de 128 para 96, e o número de camadas de 56 para 42. O resultado: o menor espaço VRAM da classe 4B quando testado no RTX 4070 e latência Time-to-First-Token recorde-baixa para sequências de entrada longas.

Quatro Estágios de Treinamento

Nemotron 3 Nano 4B não é simplesmente um modelo 9B reduzido, mas um modelo com seu próprio pipeline de treinamento de quatro estágios. O primeiro é compressão via Nemotron Elastic: busca de arquitetura neural (NAS) com um roteador treinado determinou exatamente onde podar a rede 9B. O roteador operava em quatro eixos: cabeças Mamba, dimensão oculta, canais FFN e profundidade do modelo. O segundo é destilação para recuperação de precisão:

  • Contexto curto (8K, 63B tokens): 70% dados pós-treinamento + 30% pré-treinamento
  • Contexto longo (49K, 150B tokens): expansão de janela para tarefas complexas de raciocínio

O terceiro é ajuste fino supervisionado (SFT): dois estágios cobrindo matemática, código, ciência, chat, tarefas de agente e segurança. O quarto é aprendizado por reforço de três estágios via NeMo-RL: de seguimento de instrução de turno único a múltiplos turnos com saídas JSON/XML e para chamada de função de ferramenta. A proporção de dados de raciocínio/não raciocínio é 50/50 com aperto progressivo de penalidade KL.

Números Que Importam

No Jetson Orin Nano com GGUF de 4 bits (Q4_K_M), o modelo entrega 18 tokens/seg — duas vezes mais rápido que Nemotron Nano 9B v2 no mesmo hardware. A quantização FP8 via ModelOpt mantém 100% de recuperação de precisão mediana com até 1,8X melhoria de latência/throughput em comparação com BF16.

"A quantização FP8 alcançou 100% de recuperação de precisão mediana

com até 1,8X de melhoria de latência/throughput em relação ao BF16" — da documentação técnica da NVIDIA.

Nos principais benchmarks, o modelo lidera entre concorrentes de sua classe:

  • IFBench e IFEval — seguimento de instruções
  • Orak — inteligência de jogo: Super Mario, Darkest Dungeon, Stardew Valley
  • Tool-use — invocação de ferramenta e evitação de alucinação
  • TTFT — latência mínima em sequências de entrada longas

O modelo está disponível em três variantes: BF16 (precisão completa), FP8 (otimizado para RTX e GPUs de servidor), GGUF Q4_K_M (para Jetson e Llama.cpp). Os mecanismos vLLM, TRT-LLM e Hugging Face Transformers são suportados.

O Que Isso Significa

Um modelo 4B com vantagem de velocidade 2X sobre 9B em Jetson muda a equação de IA em edge: robótica, IoT, agentes locais e NPCs de jogo obtêm uma ferramenta de nível industrial sem hardware caro e sem enviar dados para a nuvem. Os pesos abertos permitem ajustar o modelo para um domínio específico sem restrições de licença.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…