Universidad de Twente redujo el consumo de energía en el entrenamiento de LLM en 14%
La Universidad de Twente desarrolló un método que reduce el consumo de energía en el entrenamiento de LLM en un 14% sin pérdida de rendimiento. La técnica…
Procesado por IA desde IEEE Spectrum AI; editado por Hamidun News
Investigadores de la Universidad de Twente en Países Bajos desarrollaron un método que permite ahorrar hasta 14% de energía en el entrenamiento de grandes modelos de lenguaje sin perder velocidad de entrenamiento. La técnica se basa en la gestión dinámica de la frecuencia de reloj de la GPU y se aplica por primera vez en un nivel tan fino de detalle.
Cómo funciona DVFS DVFS (dynamic voltage-frequency scaling) es una
técnica conocida que cambia la frecuencia del reloj en la GPU según la carga computacional actual. Cada operación en el chip se inicia mediante un pulso de reloj, y la frecuencia de estos pulsos determina tanto la velocidad de funcionamiento de la GPU como su consumo de energía. Las GPU modernas tienen dos sistemas de reloj independientes: uno para el núcleo computacional y otro para el bloque de memoria.
Cuando el núcleo realiza cálculos intensivos, su reloj funciona a alta frecuencia, mientras que el reloj de memoria se puede ralentizar. Cuando el núcleo espera datos de la memoria, la situación es opuesta: el núcleo puede ralentizarse y la memoria acelerarse. Este equilibrio reduce el consumo total de energía sin pérdida de rendimiento.
Por qué los métodos anteriores no funcionaban DVFS existe desde los
años 90, pero aplicarla al entrenamiento de LLM resultó más difícil de lo esperado. Los intentos anteriores o ralentizaban demasiado los cálculos, o eran inflexibles. El principal problema: la mayoría de los métodos regulaban la frecuencia solo a nivel de iteraciones de entrenamiento completas (forward pass y backpropagation), lo que era demasiado tosco para una optimización efectiva.
Innovación a nivel de kernels
El equipo de Jeffrey Spaan decidió cambiar la frecuencia en un nivel mucho más fino: a nivel de kernels individuales (bloques de cálculo elementales). Los cálculos de GPU se dividen en operaciones minúsculas: por ejemplo, una multiplicación de vectores constituye un kernel. Al entrenar una capa de red neuronal, se lanzan aproximadamente 40 de estos kernels.
Al regular la frecuencia para cada kernel por separado, el equipo pudo encontrar ahorros de energía mucho mayores: Regulación a nivel de bloques computacionales individuales en lugar de iteraciones completas La predicción del siguiente kernel permite establecer la frecuencia correcta de antemano Ahorro de energía promedio del 14% con una ralentización de solo 0,6% El DVFS automático de la GPU funciona peor porque no puede predecir los siguientes pasos ## Resultados y limitaciones El experimento se realizó en el modelo GPT-3-XL (1,3 mil millones de parámetros) en GPU Nvidia RTX 3080 Ti. Resultado: 14% de ahorro de energía con una ralentización de solo 0,6%.
«Optimizamos el ahorro de energía sin pérdida de rendimiento.
En el mundo real, el rendimiento es el Santo Grial», — Jeffrey Spaan. Una limitación: cambiar las frecuencias requiere tiempo, aunque menos que apagar-encender completamente un núcleo. Los investigadores no lo consideraron en sus cálculos, por lo que 14% es el mejor escenario. Las GPU más nuevas, como Nvidia Blackwell, tienen cambios mucho más rápidos y podrán aprovechar plenamente este ahorro.
Qué significa esto
Si el método de Spaan se implementa en la industria, se podrían ahorrar mil millones de vatios-hora de energía en el entrenamiento de modelos frontier. Esto reduciría la huella de carbono de la industria de IA y sus costos operativos, sin requerir inversión en nuevo equipo.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.