IEEE Spectrum AI→ original

University of Twente снизила энергопотребление обучения LLM на 14%

Университет Twente разработал метод, снижающий энергопотребление при обучении LLM на 14% без потери производительности. Техника DVFS точно регулирует частоту GP

AI-processed from IEEE Spectrum AI; edited by Hamidun News
University of Twente снизила энергопотребление обучения LLM на 14%
Source: IEEE Spectrum AI. Collage: Hamidun News.

Исследователи из Университета Twente в Нидерландах разработали метод, позволяющий сэкономить до 14% энергии при обучении больших языковых моделей без потери скорости обучения. Техника основана на динамическом управлении частотой тактов GPU и впервые применена на столь мелком уровне детализации.

Как работает DVFS DVFS (dynamic voltage-frequency scaling) — это

известная техника, которая изменяет частоту часов в GPU в зависимости от текущей вычислительной нагрузки. Каждая операция в чипе запускается импульсом часов, и частота этих импульсов определяет как скорость работы GPU, так и его энергопотребление. Современные GPU имеют две независимые системы часов: одну для вычислительного ядра и одну для блока памяти. Когда ядро интенсивно вычисляет, его часы работают на высокой частоте, а часы памяти можно замедлить. Когда же ядро ждет данные из памяти, ситуация противоположная — ядро может замедлиться, память ускориться. Этот баланс снижает общее потребление энергии без потери производительности.

Почему прежние методы не срабатывали DVFS существует с 1990-х годов,

но применить её к обучению LLM оказалось сложнее, чем казалось. Предыдущие попытки либо замедляли вычисления слишком сильно, либо были недостаточно гибкими. Основная проблема: большинство методов регулировали частоту только на уровне целых итераций обучения (forward pass и backpropagation), что было слишком грубо для эффективной оптимизации.

Инновация на уровне ядер

Team Jeffrey Spaan решила изменять частоту на гораздо более мелком уровне — на уровне отдельных kernels (элементарных вычислительных блоков). GPU-вычисления разбиваются на крошечные операции: например, одно умножение векторов составляет один kernel. При обучении одного слоя нейросети запускается примерно 40 таких kernels.

Регулируя частоту для каждого kernel отдельно, команда смогла найти гораздо большую экономию энергии: Регулировка на уровне отдельных вычислительных блоков вместо целых итераций Предсказание следующего kernel позволяет заранее установить нужную частоту Экономия энергии в среднем 14% при замедлении всего на 0,6% Автоматический DVFS GPU работает хуже, потому что не может предвидеть следующие шаги ## Результаты и ограничения Эксперимент провели на модели GPT-3-XL (1.3 млрд параметров) на GPU Nvidia RTX 3080 Ti. Результат: 14% экономии энергии с замедлением всего на 0,6%.

«Мы оптимизируем сбережение энергии без потери производительности.

В реальном мире производительность — это святой Грааль», — Jeffrey Spaan. Одно ограничение: переключение частот требует времени, хотя и меньше, чем полное отключение-включение ядра. В расчетах исследователей это не учитывалось, поэтому 14% — это лучший сценарий. Более новые GPU, такие как Nvidia Blackwell, имеют намного более быстрое переключение и смогут полнее использовать эту экономию.

Что это значит

Если метод Spaan внедрится в промышленности, млрд ватт-часов энергии можно сэкономить при обучении frontier моделей. Это снизит углеродный след AI-индустрии и её операционные затраты, не требуя инвестиций в новое оборудование.

ZK
Hamidun News
AI news without noise. Daily editorial selection from 400+ sources. A product by Zhemal Khamidun, Head of AI at Alpina Digital.

Want to stop reading about AI and start using it?

AI News is a curated feed of AI/tech news. Hamidun Academy teaches you to use AI systematically in your work.

What do you think?
Loading comments…