L'Université de Twente réduit la consommation énergétique de l'entraînement des LLM de 14%
L'Université de Twente a développé une méthode réduisant la consommation énergétique lors de l'entraînement des LLM de 14% sans perte de performance. La…
Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Des chercheurs de l'Université de Twente aux Pays-Bas ont développé une méthode permettant d'économiser jusqu'à 14% d'énergie lors de l'entraînement de grands modèles de langage sans perdre de vitesse d'entraînement. La technique est basée sur la gestion dynamique de la fréquence d'horloge du GPU et est appliquée pour la première fois à un niveau de granularité aussi fin.
Comment fonctionne DVFS
DVFS (dynamic voltage-frequency scaling) est une technique bien connue qui modifie la fréquence d'horloge du GPU en fonction de la charge de calcul actuelle. Chaque opération dans la puce est déclenchée par une impulsion d'horloge, et la fréquence de ces impulsions détermine à la fois la vitesse de fonctionnement du GPU et sa consommation énergétique. Les GPU modernes disposent de deux systèmes d'horloge indépendants : un pour le cœur de calcul et un pour le bloc mémoire.
Lorsque le cœur effectue des calculs intensifs, son horloge fonctionne à une fréquence élevée, tandis que l'horloge mémoire peut être ralentie. Lorsque le cœur attend les données de la mémoire, la situation est inverse : le cœur peut être ralenti, la mémoire accélérée. Cet équilibre réduit la consommation globale d'énergie sans perte de performance.
Pourquoi les méthodes précédentes ne fonctionnaient pas
DVFS existe depuis les années 1990, mais appliquer cette technique à l'entraînement des LLM s'est avéré plus difficile que prévu. Les tentatives précédentes soit ralentissaient les calculs trop fortement, soit n'étaient pas assez flexibles. Le problème principal : la plupart des méthodes ajustaient la fréquence uniquement au niveau des itérations d'entraînement complètes (forward pass et rétropropagation), ce qui était trop grossier pour une optimisation efficace.
Innovation au niveau des noyaux
L'équipe de Jeffrey Spaan a décidé de modifier la fréquence à un niveau beaucoup plus fin : au niveau des kernels individuels (blocs de calcul élémentaires). Les calculs GPU sont divisés en opérations microscopiques : par exemple, une multiplication vectorielle constitue un kernel. Lors de l'entraînement d'une couche de réseau de neurones, environ 40 kernels sont lancés. En ajustant la fréquence pour chaque kernel individuellement, l'équipe a pu trouver une économie d'énergie beaucoup plus importante :
- Ajustement au niveau des blocs de calcul individuels au lieu des itérations complètes
- La prédiction du kernel suivant permet de définir à l'avance la fréquence appropriée
- Économie d'énergie moyenne de 14% avec un ralentissement de seulement 0,6%
- Le DVFS automatique du GPU fonctionne moins bien car il ne peut pas prévoir les étapes suivantes
Résultats et limitations
L'expérience a été menée sur le modèle GPT-3-XL (1,3 milliard de paramètres) sur GPU Nvidia RTX 3080 Ti. Résultat : 14% d'économie d'énergie avec un ralentissement de seulement 0,6%.
« Nous optimisons les économies d'énergie sans perte de performance.
Dans le monde réel, la performance est le Graal », — Jeffrey Spaan.
Une limitation : le changement de fréquence prend du temps, bien que moins que l'extinction et l'activation complètes du cœur. Cela n'a pas été pris en compte dans les calculs des chercheurs, donc 14% est le meilleur scénario. Les GPU plus récents, tels que Nvidia Blackwell, ont un changement de fréquence beaucoup plus rapide et pourront exploiter cette économie plus pleinement.
Ce que cela signifie
Si la méthode de Spaan s'impose dans l'industrie, des milliards de wattheures d'énergie pourraient être économisés lors de l'entraînement de modèles de pointe. Cela réduirait l'empreinte carbone de l'industrie de l'IA et ses coûts opérationnels, sans nécessiter d'investissements dans de nouveaux équipements.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.