Universidade de Twente reduziu o consumo de energia no treinamento de LLM em 14%
A Universidade de Twente desenvolveu um método que reduz o consumo de energia no treinamento de LLMs em 14% sem perda de desempenho. A técnica DVFS (dynamic…
Processado por IA de IEEE Spectrum AI; editado por Hamidun News
Pesquisadores da Universidade de Twente nos Países Baixos desenvolveram um método que permite economizar até 14% de energia ao treinar grandes modelos de linguagem sem perder a velocidade de treinamento. A técnica é baseada em gerenciamento dinâmico da frequência do relógio da GPU e foi aplicada pela primeira vez em um nível tão fino de granularidade.
Como funciona o DVFS
DVFS (dynamic voltage-frequency scaling) é uma técnica conhecida que altera a frequência do relógio na GPU dependendo da carga computacional atual. Cada operação no chip é iniciada por um pulso de relógio, e a frequência desses pulsos determina tanto a velocidade de funcionamento da GPU quanto seu consumo de energia. GPUs modernas têm dois sistemas de relógio independentes: um para o núcleo computacional e outro para o bloco de memória.
Quando o núcleo está computando intensivamente, seu relógio funciona em alta frequência, enquanto o relógio de memória pode ser desacelerado. Quando o núcleo aguarda dados da memória, a situação é oposta — o núcleo pode desacelerar e a memória acelerar. Este equilíbrio reduz o consumo de energia geral sem perda de desempenho.
Por que métodos anteriores não funcionaram
DVFS existe desde a década de 1990, mas aplicá-la ao treinamento de LLMs provou ser mais desafiador do que parecia. As tentativas anteriores ou desaceleravam os cálculos demais ou eram insuficientemente flexíveis. O principal problema: a maioria dos métodos regulava a frequência apenas no nível de iterações completas de treinamento (forward pass e backpropagation), o que era muito grosseiro para otimização eficaz.
Inovação no nível de kernels
A equipe de Jeffrey Spaan decidiu alterar a frequência em um nível muito mais fino — no nível de kernels individuais (blocos computacionais elementares). As computações de GPU são divididas em operações minúsculas: por exemplo, uma multiplicação de vetores constitui um kernel. Ao treinar uma camada da rede neural, aproximadamente 40 desses kernels são iniciados. Regulando a frequência para cada kernel individualmente, a equipe conseguiu encontrar economia de energia muito maior:
- Ajuste no nível de blocos computacionais individuais em vez de iterações completas
- Prever o próximo kernel permite definir a frequência apropriada com antecedência
- Economia de energia média de 14% com apenas 0,6% de desaceleração
- O DVFS automático da GPU funciona pior porque não pode prever as próximas etapas
Resultados e limitações
O experimento foi conduzido no modelo GPT-3-XL (1,3 bilhões de parâmetros) em GPU Nvidia RTX 3080 Ti. Resultado: 14% de economia de energia com apenas 0,6% de desaceleração.
"Estamos otimizando a economia de energia sem perda de desempenho.
No mundo real, o desempenho é o Santo Graal", — Jeffrey Spaan.
Uma limitação: a mudança de frequência requer tempo, embora menos do que o desligamento-ligamento completo do núcleo. Os cálculos dos pesquisadores não levaram isso em conta, então 14% é o melhor cenário. GPUs mais novas, como Nvidia Blackwell, têm mudança muito mais rápida e poderão utilizar essa economia de forma mais completa.
O que isso significa
Se o método de Spaan for implementado na indústria, bilhões de watts-hora de energia podem ser economizados ao treinar modelos de frontier. Isso reduzirá a pegada de carbono da indústria de IA e seus custos operacionais, sem exigir investimento em novo equipamento.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.