IEEE Spectrum AI→ original

University of Twente снизила энергопотребление обучения LLM на 14%

Университет Twente разработал метод, снижающий энергопотребление при обучении LLM на 14% без потери производительности. Техника DVFS точно регулирует частоту GP

Processado por IA de IEEE Spectrum AI; editado por Hamidun News
University of Twente снизила энергопотребление обучения LLM на 14%
Fonte: IEEE Spectrum AI. Colagem: Hamidun News.

Исследователи из Университета Twente в Нидерландах разработали метод, позволяющий сэкономить до 14% энергии при обучении больших языковых моделей без потери скорости обучения. Техника основана на динамическом управлении частотой тактов GPU и впервые применена на столь мелком уровне детализации.

Как работает DVFS DVFS (dynamic voltage-frequency scaling) — это

известная техника, которая изменяет частоту часов в GPU в зависимости от текущей вычислительной нагрузки. Каждая операция в чипе запускается импульсом часов, и частота этих импульсов определяет как скорость работы GPU, так и его энергопотребление. Современные GPU имеют две независимые системы часов: одну для вычислительного ядра и одну для блока памяти. Когда ядро интенсивно вычисляет, его часы работают на высокой частоте, а часы памяти можно замедлить. Когда же ядро ждет данные из памяти, ситуация противоположная — ядро может замедлиться, память ускориться. Этот баланс снижает общее потребление энергии без потери производительности.

Почему прежние методы не срабатывали DVFS существует с 1990-х годов,

но применить её к обучению LLM оказалось сложнее, чем казалось. Предыдущие попытки либо замедляли вычисления слишком сильно, либо были недостаточно гибкими. Основная проблема: большинство методов регулировали частоту только на уровне целых итераций обучения (forward pass и backpropagation), что было слишком грубо для эффективной оптимизации.

Инновация на уровне ядер

Team Jeffrey Spaan решила изменять частоту на гораздо более мелком уровне — на уровне отдельных kernels (элементарных вычислительных блоков). GPU-вычисления разбиваются на крошечные операции: например, одно умножение векторов составляет один kernel. При обучении одного слоя нейросети запускается примерно 40 таких kernels.

Регулируя частоту для каждого kernel отдельно, команда смогла найти гораздо большую экономию энергии: Регулировка на уровне отдельных вычислительных блоков вместо целых итераций Предсказание следующего kernel позволяет заранее установить нужную частоту Экономия энергии в среднем 14% при замедлении всего на 0,6% Автоматический DVFS GPU работает хуже, потому что не может предвидеть следующие шаги ## Результаты и ограничения Эксперимент провели на модели GPT-3-XL (1.3 млрд параметров) на GPU Nvidia RTX 3080 Ti. Результат: 14% экономии энергии с замедлением всего на 0,6%.

«Мы оптимизируем сбережение энергии без потери производительности.

В реальном мире производительность — это святой Грааль», — Jeffrey Spaan. Одно ограничение: переключение частот требует времени, хотя и меньше, чем полное отключение-включение ядра. В расчетах исследователей это не учитывалось, поэтому 14% — это лучший сценарий. Более новые GPU, такие как Nvidia Blackwell, имеют намного более быстрое переключение и смогут полнее использовать эту экономию.

Что это значит

Если метод Spaan внедрится в промышленности, млрд ватт-часов энергии можно сэкономить при обучении frontier моделей. Это снизит углеродный след AI-индустрии и её операционные затраты, не требуя инвестиций в новое оборудование.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…