IEEE Spectrum AI→ المصدر

University of Twente снизила энергопотребление обучения LLM на 14%

Университет Twente разработал метод, снижающий энергопотребление при обучении LLM на 14% без потери производительности. Техника DVFS точно регулирует частоту GP

معالج بواسطة الذكاء الاصطناعي من IEEE Spectrum AI؛ بتحرير Hamidun News
University of Twente снизила энергопотребление обучения LLM на 14%
المصدر: IEEE Spectrum AI. كولاج: Hamidun News.

Исследователи из Университета Twente в Нидерландах разработали метод, позволяющий сэкономить до 14% энергии при обучении больших языковых моделей без потери скорости обучения. Техника основана на динамическом управлении частотой тактов GPU и впервые применена на столь мелком уровне детализации.

Как работает DVFS DVFS (dynamic voltage-frequency scaling) — это

известная техника, которая изменяет частоту часов в GPU в зависимости от текущей вычислительной нагрузки. Каждая операция в чипе запускается импульсом часов, и частота этих импульсов определяет как скорость работы GPU, так и его энергопотребление. Современные GPU имеют две независимые системы часов: одну для вычислительного ядра и одну для блока памяти. Когда ядро интенсивно вычисляет, его часы работают на высокой частоте, а часы памяти можно замедлить. Когда же ядро ждет данные из памяти, ситуация противоположная — ядро может замедлиться, память ускориться. Этот баланс снижает общее потребление энергии без потери производительности.

Почему прежние методы не срабатывали DVFS существует с 1990-х годов,

но применить её к обучению LLM оказалось сложнее, чем казалось. Предыдущие попытки либо замедляли вычисления слишком сильно, либо были недостаточно гибкими. Основная проблема: большинство методов регулировали частоту только на уровне целых итераций обучения (forward pass и backpropagation), что было слишком грубо для эффективной оптимизации.

Инновация на уровне ядер

Team Jeffrey Spaan решила изменять частоту на гораздо более мелком уровне — на уровне отдельных kernels (элементарных вычислительных блоков). GPU-вычисления разбиваются на крошечные операции: например, одно умножение векторов составляет один kernel. При обучении одного слоя нейросети запускается примерно 40 таких kernels.

Регулируя частоту для каждого kernel отдельно, команда смогла найти гораздо большую экономию энергии: Регулировка на уровне отдельных вычислительных блоков вместо целых итераций Предсказание следующего kernel позволяет заранее установить нужную частоту Экономия энергии в среднем 14% при замедлении всего на 0,6% Автоматический DVFS GPU работает хуже, потому что не может предвидеть следующие шаги ## Результаты и ограничения Эксперимент провели на модели GPT-3-XL (1.3 млрд параметров) на GPU Nvidia RTX 3080 Ti. Результат: 14% экономии энергии с замедлением всего на 0,6%.

«Мы оптимизируем сбережение энергии без потери производительности.

В реальном мире производительность — это святой Грааль», — Jeffrey Spaan. Одно ограничение: переключение частот требует времени, хотя и меньше, чем полное отключение-включение ядра. В расчетах исследователей это не учитывалось, поэтому 14% — это лучший сценарий. Более новые GPU, такие как Nvidia Blackwell, имеют намного более быстрое переключение и смогут полнее использовать эту экономию.

Что это значит

Если метод Spaan внедрится в промышленности, млрд ватт-часов энергии можно сэкономить при обучении frontier моделей. Это снизит углеродный след AI-индустрии и её операционные затраты, не требуя инвестиций в новое оборудование.

ZK
Hamidun News
أخبار الذكاء الاصطناعي بدون ضوضاء. اختيار تحريري يومي من أكثر من 400 مصدر. منتج من جمال حميدون، رئيس الذكاء الاصطناعي في Alpina Digital.

هل تريد التوقف عن قراءة الذكاء الاصطناعي والبدء باستخدامه؟

AI News هو موجز منسق لأخبار الذكاء الاصطناعي. تعلمك Hamidun Academy استخدام الذكاء الاصطناعي في عملك.

ما رأيك؟
جارٍ تحميل التعليقات…