MarkTechPost→ original

Nemotron-3-Nano-30B: NVIDIA ensinou modelos de 4 bits a pensar como adultos

Lembra daqueles tempos em que para rodar um modelo de linguagem decente era preciso de um rack de servidores e do orçamento de um pequeno país? Esses dias…

Processado por IA de MarkTechPost; editado por Hamidun News
Nemotron-3-Nano-30B: NVIDIA ensinou modelos de 4 bits a pensar como adultos
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

Lembra daqueles tempos em que para rodar um modelo de linguagem decente era preciso de um rack de servidores e do orçamento de um pequeno país? Esses dias estão rapidamente se tornando passado. Enquanto alguns tentam simplesmente aumentar a quantidade de parâmetros, os engenheiros da NVIDIA decidiram se dedicar à "mágica da engenharia" e à otimização do que já existe. Nasce o Nemotron-3-Nano-30B — um modelo com 30 bilhões de parâmetros que de alguma forma consegue manter a nitidez do pensamento mesmo depois de ser literalmente forçado a perder peso quatro vezes.

O problema da quantização — o processo de compressão dos pesos do modelo — sempre foi a perda de precisão. Normalmente, quando você converte um modelo do formato 16-bit (BF16) para o formato 4-bit (NVFP4), ele começa a se comportar como uma pessoa após um trauma cerebral grave: confundindo fatos e perdendo conexões lógicas. A NVIDIA resolveu esse problema com Quantization Aware Distillation (QAD). Para simplificar, é um processo de treinamento onde um modelo "inteligente" de tamanho completo atua como mentor para uma versão "comprimida", sabendo antecipadamente que o aluno terá que trabalhar sob severas restrições de memória. Como resultado, a diferença na qualidade das respostas entre as versões pesada e leve tornou-se praticamente imperceptível.

Arquiteturalmente, o Nemotron-3-Nano-30B não é apenas mais um transformador. É um híbrido combinando Mamba2 e Transformer Mixture of Experts (MoE). A arquitetura Mamba2 é excelente em lidar com contextos longos e processamento eficiente de sequências, enquanto o MoE permite ativar apenas as partes necessárias da rede neural para uma tarefa específica. Essa combinação torna o modelo incrivelmente rápido ao executar tarefas de raciocínio (reasoning), onde cada detalhe na cadeia de pensamento importa.

Por que a NVIDIA precisa disso, além da óbvia dominação do mercado? A resposta está no hardware. O formato NVFP4 é a linguagem "nativa" para a nova arquitetura de chips Blackwell. Ao lançar esses modelos, a empresa cria um ecossistema perfeito: seu software funciona com máxima eficiência precisamente no seu novo hardware. É um aviso sutil para a indústria: se você quer raciocínio verdadeiramente rápido e inteligente com baixos custos de energia, é hora de atualizar sua frota de GPUs.

Para desenvolvedores, isso significa que a era da IA "raciocínio" acessível chegou. Agora um modelo com 30 bilhões de parâmetros pode ser executado em hardware muito mais modesto sem sacrificar a qualidade da inferência lógica. Isso abre portas para soluções locais nos negócios, onde a privacidade dos dados é mais importante do que o acesso a APIs em nuvem. A NVIDIA mais uma vez prova que não se trata apenas de quantos neurônios você tem, mas de quão eficientemente eles estão empacotados em silício.

O essencial: a NVIDIA transformou o formato 4-bit no padrão para tarefas sérias, e agora competidores da AMD e startups como Groq terão que provar que suas soluções podem ser igualmente eficazes em condições de precisão limitada. Será que alguém mais pode "comprimir" a inteligência tão elegantemente?

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…