NVIDIA Developer Blog→ original

NVIDIA explicó cómo entrenar transformers con precisión reducida sin perder calidad

NVIDIA publicó una guía técnica sobre el entrenamiento de modelos transformer en precisión reducida — FP8 y BF16. Cuanto mayor es el modelo, más cara resulta…

Procesado por IA desde NVIDIA Developer Blog; editado por Hamidun News
NVIDIA explicó cómo entrenar transformers con precisión reducida sin perder calidad
Fuente: NVIDIA Developer Blog. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA publicó una guía extensa en Developer Blog sobre optimización de arquitecturas transformer para entrenamiento con cálculos de precisión reducida — FP8 y BF16. El artículo está dirigido a ingenieros que desean reducir el costo de ejecuciones de entrenamiento sin comprometer la calidad del modelo.

Por qué los equipos necesitan esto

Los transformers forman la base de la mayoría de modelos de lenguaje y generativos modernos. A medida que crecen los tamaños de los modelos — de miles de millones a decenas de miles de millones de parámetros — el costo de una única ejecución de entrenamiento crece exponencialmente. Cada iteración del experimento consume más horas de GPU, lo que ralentiza el desarrollo e incrementa los costos.

En la práctica, esto significa que el entrenamiento lento no es simplemente una inconveniencia técnica. Es una restricción sobre cuántas hipótesis puede probar un equipo en un trimestre y qué tan grande puede ser un modelo que puedan permitirse. NVIDIA llama a la aceleración de transformers no una optimización, sino un requisito para la competitividad.

Qué es el entrenamiento de baja precisión

El entrenamiento estándar de redes neuronales se realiza en formato de 32 bits (FP32), que proporciona alta precisión numérica pero consume mucha memoria y funciona más lentamente en GPUs modernas. Reducir el ancho de bits permite ajustar más datos en la memoria de vídeo y acelerar operaciones matriciales:

  • FP16 — números de punto flotante de 16 bits; compatible con la mayoría de las GPUs modernas
  • BF16 — Brain Float 16; rango dinámico más amplio, mejor adaptado para entrenamiento inestable de modelos grandes
  • FP8 — formato de 8 bits, disponible en arquitectura Hopper (H100, H200); proporciona un aumento de dos veces en el rendimiento de operaciones matriciales en comparación con BF16
  • INT8 — entero de 8 bits; usado más frecuentemente para inferencia que para entrenamiento

El desafío principal es mantener la estabilidad numérica al reducir la precisión tan drásticamente. Una transición ingenua de FP32 a FP8 conduce a gradientes divergentes y entrenamiento inestable.

Técnicas que NVIDIA recomienda

El simple reemplazo de formato no funciona, por lo que NVIDIA describe varios enfoques probados.

Precisión mixta. Los pesos se almacenan en FP32, mientras que los pases hacia adelante e inverso se ejecutan en FP16 o BF16. Esto combina la velocidad del cálculo de baja precisión con la confiabilidad del almacenamiento de parámetros de precisión completa — el estándar de facto para la mayoría de los pipelines de entrenamiento modernos.

Escalado de pérdida. FP16 representa mal números muy pequeños — los gradientes en capas posteriores pueden desbordarse. El escalado de pérdida aumenta artificialmente el valor de la función de pérdida antes del pase inverso, luego reescala los gradientes. Las implementaciones modernas hacen esto automática y adaptativamente.

TransformerEngine. Una biblioteca especializada de NVIDIA que gestiona automáticamente la precisión a nivel de capas individuales del transformer. Compatible con FP8 en Hopper, se integra con PyTorch, JAX y Megatron-LM. En lugar de reescribir todo el código de entrenamiento, un ingeniero simplemente conecta TransformerEngine y obtiene aceleración FP8 con cambios mínimos.

"A medida que los modelos crecen, las ejecuciones de entrenamiento consumen cada vez más horas de GPU y tiempo de ingeniería.

Esto afecta directamente qué tan rápido pueden experimentar los equipos y qué tan grande puede ser un modelo que pueden permitirse," — NVIDIA Developer Blog.

Qué significa esto

La guía se publica en un momento en que la eficiencia del entrenamiento se ha vuelto tan importante como la precisión del modelo. Los equipos en H100 o H200 reciben orientación concreta: FP8 a través de TransformerEngine es una de las formas más accesibles de reducir el presupuesto de GPU sin rediseñar la arquitectura. Para laboratorios pequeños, esto puede significar la diferencia entre poder entrenar un modelo de 70 mil millones de parámetros o tener que abandonarlo debido al costo.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…