MarkTechPost→ original

NVIDIA desarrolló un método para entrenar redes neuronales con precisión de 4-bit

NVIDIA desarrolló NVFP4, una nueva metodología para entrenar modelos de redes neuronales con precisión de 4-bit en lugar de la tradicional 8-bit. El método redu

NVIDIA desarrolló un método para entrenar redes neuronales con precisión de 4-bit
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA presentó NVFP4 — una nueva metodología para entrenar redes neuronales con precisión de 4 bits. Esto permite ahorrar significativamente memoria y recursos computacionales al entrenar modelos grandes.

Cómo Funciona

El enfoque estándar utiliza precisión de 8 bits (FP8) o 16 bits (BF16) para almacenar resultados intermedios y gradientes de entrenamiento. NVIDIA logró reducir a la mitad estos requisitos de memoria, haciendo la transición al formato NVFP4 de 4 bits.

El método no solo reduce la precisión, sino que combina varias técnicas: uso selectivo de BF16 más preciso en capas críticas del modelo, transformaciones matemáticas especiales de datos de entrada de gradientes (transformadas aleatorias de Hadamard de 16×16) y redondeo estocástico durante los cálculos.

Tradicionalmente, el entrenamiento de 4 bits se consideraba arriesgado — con entrenamiento prolongado, los errores de redondeo se acumulan y conducen a la degradación del modelo. La empresa probó NVFP4 en un modelo Mamba-Transformer híbrido con 12 mil millones de parámetros, entrenándolo en 10 billones de tokens — el experimento público más largo con entrenamiento de 4 bits hasta la fecha. Esto demuestra que con la metodología correcta, los errores numéricos no se acumulan catastróficamente.

Los Resultados Superaron las Expectativas

La métrica clave fue la precisión en el benchmark MMLU-Pro — una prueba de conocimiento integral que cubre matemáticas, ciencias naturales, humanidades y otros campos. El modelo NVFP4 logró 62,58%, que es literalmente solo 0,04% menor que un modelo entrenado con el método FP8 tradicional (62,62%). Para aplicaciones prácticas, esta diferencia es completamente insignificante — precisión dentro del margen de error de medición.

Ante el telón de fondo de un ahorro de memoria doble, este es un caso raro en el que la reducción de precisión numérica no condujo a un declive notable en la calidad de los resultados. Esto significa que NVFP4 no sacrifica la corrección por economía de recursos.

  • Reducción de memoria: 2x en comparación con FP8
  • Pérdida de precisión en benchmark: menos del 0.1%
  • Escala del experimento: 10 billones de tokens
  • Arquitectura: modelo Mamba-Transformer híbrido con 12 mil millones de parámetros

Qué Significa Esto para la Industria

El resultado es importante para empresas que entrenan modelos desde cero. Un ahorro de memoria doble significa que el mismo volumen de computaciones se puede realizar más rápido, más barato, o los recursos ahorrados se pueden invertir en entrenar modelos más grandes. Si su empresa entrena un modelo en 1000 días de GPU A100, NVFP4 puede reducir esto a 500 días de GPU manteniendo la calidad.

Para los investigadores, esto abre nuevas oportunidades de experimentación con arquitecturas, volúmenes de datos e hiperparámetros. Es más fácil probar nuevas ideas en modelos más grandes en un día que en modelos más pequeños en una semana.

Sin embargo, el método aún requiere validación adicional en otros tipos de modelos — particularmente en transformadores puros y modelos con arquitecturas diferentes. NVIDIA solo ha mostrado resultados en la arquitectura Mamba-Transformer híbrida hasta ahora. También es importante entender que el entrenamiento de 4 bits es una técnica especializada que requiere optimizaciones de software específicas y soporte de hardware (el soporte completo actualmente existe solo en GPUs NVIDIA).

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…