NVIDIA desenvolveu um método para treinar redes neurais com precisão de 4-bit
A NVIDIA desenvolveu o NVFP4, uma nova metodologia para treinar modelos de redes neurais com precisão de 4-bit em vez da tradicional 8-bit. O método reduz os re

A NVIDIA apresentou NVFP4 — uma nova metodologia para treinar redes neurais com precisão de 4 bits. Isso permite economizar significativamente memória e recursos computacionais no treinamento de modelos grandes.
Como Funciona
A abordagem padrão usa precisão de 8 bits (FP8) ou 16 bits (BF16) para armazenar resultados intermediários e gradientes de treinamento. A NVIDIA conseguiu reduzir pela metade esses requisitos de memória, transitando para o formato NVFP4 de 4 bits.
O método não apenas reduz a precisão, mas combina várias técnicas: uso seletivo de BF16 mais preciso em camadas críticas do modelo, transformações matemáticas especiais dos dados de entrada de gradientes (transformadas aleatórias de Hadamard de 16×16) e arredondamento estocástico durante os cálculos.
Tradicionalmente, o treinamento de 4 bits era considerado arriscado — com treinamento prolongado, os erros de arredondamento se acumulam e levam à degradação do modelo. A empresa testou NVFP4 em um modelo Mamba-Transformer híbrido com 12 bilhões de parâmetros, treinando-o em 10 trilhões de tokens — o experimento público mais longo com treinamento de 4 bits até o momento. Isso demonstra que, com a metodologia correta, os erros numéricos não se acumulam catastroficamente.
Resultados Superaram Expectativas
A métrica chave foi a precisão no benchmark MMLU-Pro — um teste abrangente de conhecimento cobrindo matemática, ciências naturais, humanidades e outros campos. O modelo NVFP4 alcançou 62,58%, o que é literalmente apenas 0,04% menor do que um modelo treinado com o método FP8 tradicional (62,62%). Para aplicações práticas, essa diferença é completamente insignificante — precisão dentro da margem de erro de medição.
Contra o pano de fundo de uma economia de memória duas vezes maior, este é um caso raro em que a redução da precisão numérica não levou a um declínio notável na qualidade dos resultados. Isso significa que NVFP4 não sacrifica a correção em favor da economia de recursos.
- Redução de memória: 2x em comparação com FP8
- Perda de precisão no benchmark: menos de 0.1%
- Escala do experimento: 10 trilhões de tokens
- Arquitetura: modelo Mamba-Transformer híbrido com 12 bilhões de parâmetros
O Que Isso Significa para a Indústria
O resultado é importante para empresas que treinam modelos do zero. Uma economia de memória duas vezes maior significa que o mesmo volume de computações pode ser realizado mais rapidamente, com menor custo, ou os recursos economizados podem ser investidos no treinamento de modelos maiores. Se sua empresa treina um modelo em 1000 dias de GPU A100, NVFP4 pode reduzir isso para 500 dias de GPU mantendo a qualidade.
Para os pesquisadores, isso abre novas oportunidades para experimentação com arquiteturas, volumes de dados e hiperparâmetros. Fica mais fácil testar novas ideias em modelos maiores em um dia do que em modelos menores em uma semana.
No entanto, o método ainda requer validação adicional em outros tipos de modelos — particularmente em transformadores puros e modelos com arquiteturas diferentes. A NVIDIA mostrou resultados apenas na arquitetura Mamba-Transformer híbrida até o momento. Também é importante entender que o treinamento de 4 bits é uma técnica especializada que requer otimizações de software específicas e suporte de hardware (o suporte completo atualmente existe apenas em GPUs NVIDIA).