University of Twente снизила энергопотребление обучения LLM на 14%
Университет Twente разработал метод, снижающий энергопотребление при обучении LLM на 14% без потери производительности. Техника DVFS точно регулирует частоту GP
Traité par IA depuis IEEE Spectrum AI ; édité par Hamidun News
Исследователи из Университета Twente в Нидерландах разработали метод, позволяющий сэкономить до 14% энергии при обучении больших языковых моделей без потери скорости обучения. Техника основана на динамическом управлении частотой тактов GPU и впервые применена на столь мелком уровне детализации.
Как работает DVFS DVFS (dynamic voltage-frequency scaling) — это
известная техника, которая изменяет частоту часов в GPU в зависимости от текущей вычислительной нагрузки. Каждая операция в чипе запускается импульсом часов, и частота этих импульсов определяет как скорость работы GPU, так и его энергопотребление. Современные GPU имеют две независимые системы часов: одну для вычислительного ядра и одну для блока памяти. Когда ядро интенсивно вычисляет, его часы работают на высокой частоте, а часы памяти можно замедлить. Когда же ядро ждет данные из памяти, ситуация противоположная — ядро может замедлиться, память ускориться. Этот баланс снижает общее потребление энергии без потери производительности.
Почему прежние методы не срабатывали DVFS существует с 1990-х годов,
но применить её к обучению LLM оказалось сложнее, чем казалось. Предыдущие попытки либо замедляли вычисления слишком сильно, либо были недостаточно гибкими. Основная проблема: большинство методов регулировали частоту только на уровне целых итераций обучения (forward pass и backpropagation), что было слишком грубо для эффективной оптимизации.
Инновация на уровне ядер
Team Jeffrey Spaan решила изменять частоту на гораздо более мелком уровне — на уровне отдельных kernels (элементарных вычислительных блоков). GPU-вычисления разбиваются на крошечные операции: например, одно умножение векторов составляет один kernel. При обучении одного слоя нейросети запускается примерно 40 таких kernels.
Регулируя частоту для каждого kernel отдельно, команда смогла найти гораздо большую экономию энергии: Регулировка на уровне отдельных вычислительных блоков вместо целых итераций Предсказание следующего kernel позволяет заранее установить нужную частоту Экономия энергии в среднем 14% при замедлении всего на 0,6% Автоматический DVFS GPU работает хуже, потому что не может предвидеть следующие шаги ## Результаты и ограничения Эксперимент провели на модели GPT-3-XL (1.3 млрд параметров) на GPU Nvidia RTX 3080 Ti. Результат: 14% экономии энергии с замедлением всего на 0,6%.
«Мы оптимизируем сбережение энергии без потери производительности.
В реальном мире производительность — это святой Грааль», — Jeffrey Spaan. Одно ограничение: переключение частот требует времени, хотя и меньше, чем полное отключение-включение ядра. В расчетах исследователей это не учитывалось, поэтому 14% — это лучший сценарий. Более новые GPU, такие как Nvidia Blackwell, имеют намного более быстрое переключение и смогут полнее использовать эту экономию.
Что это значит
Если метод Spaan внедрится в промышленности, млрд ватт-часов энергии можно сэкономить при обучении frontier моделей. Это снизит углеродный след AI-индустрии и её операционные затраты, не требуя инвестиций в новое оборудование.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.