MarkTechPost→ original

NVIDIA empaquetó 3 modelos en un archivo y logró un entrenamiento 360× más eficiente

NVIDIA presentó Star Elastic, un método que entrena tres modelos de distintos tamaños (30B, 23B y 12B parámetros) en un único ciclo de 160B tokens. Ahorro de có

Procesado por IA desde MarkTechPost; editado por Hamidun News
NVIDIA empaquetó 3 modelos en un archivo y logró un entrenamiento 360× más eficiente
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

NVIDIA presentó Star Elastic — un método que empaqueta tres modelos de diferentes tamaños (30B, 23B y 12B parámetros) en un único archivo de pesos, entrenando todos ellos desde cero en una única ejecución de entrenamiento en lugar de tres entrenamientos separados.

Ahorro de 360× en Costos de Entrenamiento

Star Elastic se basa en el framework Nemotron Elastic y se aplica a Nemotron Nano v3 — la nueva generación de modelos de NVIDIA. La característica clave: las tres variantes del modelo se entrenan en un único ciclo de 160B tokens. Para comparar: si NVIDIA entrenara cada modelo por separado, sería necesario aproximadamente 360× más computación.

Este es un ahorro masivo, especialmente considerando el costo de la computación en supercomputadoras. El enfoque convencional requiere entrenar cada tamaño por separado (costoso) o podar pesos de un modelo más grande (pérdida de precisión). Star Elastic hace una tercera cosa: incrustra modelos anidados en un único checkpoint preservando completamente la calidad de cada tamaño.

Los tres modelos se almacenan en un archivo y pueden invocarse durante la inferencia.

La Inferencia Se Vuelve Más Rápida y Precisa

Pero el entrenamiento es solo la mitad de la batalla. Star Elastic introduce elastic budget control — un nuevo enfoque de inferencia que maximiza los beneficios de los tres modelos simultáneamente. La idea es simple: durante la fase de "razonamiento" (cuando el modelo delibera) se utiliza un pequeño modelo de 12B para ahorrar computación, mientras que en la fase final de salida — se utiliza el modelo completo de 30B para la respuesta más precisa. Los resultados son impresionantes:

  • 16% mayor precisión comparado con el budget control estándar
  • 1.9× menor latencia — el modelo responde más rápido
  • Flexibilidad: las organizaciones pueden elegir la profundidad del razonamiento dependiendo de la tarea y el presupuesto

Compáralo con el budget control estándar — es aproximadamente lo mismo, pero sin la opción de alternar flexiblemente entre tamaños durante la inferencia. Aquí, el cambio está integrado en el propio algoritmo y funciona automáticamente.

Toda la Familia Ahora Cabe en RTX

Star Elastic permite que los modelos se cuantifiquen en FP8 y en el formato propietario NVFP4 (más eficiente que los formatos estándar). Esto significa: toda la tríada de modelos puede residir en una única GPU RTX, incluso en tarjetas gráficas de consumidor. Anteriormente, un modelo de 30B requería equipamiento profesional como la H100, que es inaccesible para muchas empresas. Ahora los ingenieros pueden experimentar con modelos potentes en sus propias computadoras.

"Esto democratiza el acceso a modelos de razonamiento", — en este

espíritu, argumentan los desarrolladores de NVIDIA.

Qué Significa Esto

Las organizaciones ya no necesitan elegir entre velocidad (modelo pequeño) y calidad (modelo grande) en el momento del entrenamiento. Entrenan una vez y eligen el compromiso durante la inferencia — flexiblemente, sin reentrenamiento. Esto reduce costos no solo para entrenamiento, sino también para servidores de inferencia. En la práctica: pagas menos por horas de GPU y obtienes más flexibilidad en producción.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…