Hugging Face Blog→ оригинал

Hugging Face научила TRL доставлять триллион параметров через дельта-веса

Hugging Face представила Delta Weight Sync для TRL — инструмент, который доставляет триллион параметров через Hub, отправляя только дельту весов. Метод снижает

Hugging Face научила TRL доставлять триллион параметров через дельта-веса
Источник: Hugging Face Blog. Коллаж: Hamidun News.
◐ Слушать статью

Hugging Face добавила в библиотеку TRL (Transformers Reinforcement Learning) инструмент Delta Weight Sync — метод для эффективной доставки и синхронизации гигантских моделей с триллионом параметров через обычный Hub bucket.

Почему доставлять триллион параметров сложно

При обучении больших языковых моделей в распределённой среде — например, при дообучении через reinforcement learning или fine-tuning на специализированных данных — нужно синхронизировать веса модели между узлами кластера. Если модель весит сотни гигабайт или даже терабайты, просто отправлять полные файлы означает тратить колоссальное количество сетевого трафика. Традиционный подход: скачать полный чекпойнт (может быть 2-4 ТБ), применить изменения в результате одного шага обучения, загрузить обратно на Hub. На сервере Hub это занимает место (квоты), в сети — часы ожидания.

Как работает

Delta Weight Sync Delta Weight Sync отправляет не весь файл, а только разницу (дельту) между старой версией весов и новой. Это похоже на git diff, но для нейросетевых весов.

  • Вычисляется разница между чекпойнтом A и чекпойнтом B Дельта сжимается (compression достигает 10-50x на инкрементальных обновлениях) Дельта отправляется на Hub в отдельный файл На другом узле: дельта скачивается, применяется к локальной копии весов Результат: синхронизация с объёмом данных в сотни раз меньше Эффект зависит от того, насколько сильно изменились веса. При инкрементальном дообучении часто изменяется 2-5% весов, остальное совпадает с оригиналом. Delta Weight Sync это активно использует.

Экономия на масштабе Для триллион-параметровой модели полный чекпойнт может быть 2-4 ТБ.

Отправить такой объём через сеть — это часы, даже на выделенных каналах. Дельта в 100-500 ГБ отправляется в 15-60 минут. Для систем, которые синхронизируют веса десятки раз в день (типичное для RLHF, где вес модели меняется на каждой итерации), это экономит дни обучения.

«С

Delta Weight Sync можно удерживать гигантские модели в Hub без штрафа на трафик», — концепция, лежащая в основе инструмента.

Кто это использует

Delta Weight Sync особенно полезен для: Распределённого RLHF — когда дообучают модель по обратной связи от людей или других моделей Многоузловых кластеров, где каждый узел параллельно дообучает версию модели Экспериментов с гиперпараметрами — быстро менять конфигурацию, синхронизировать только дельту Команд с ограниченной сетью — облако без unlimited bandwidth, локальные лаборатории ## Что это значит Delta Weight Sync — это не революция в теории, а инженерный шаг к практичности. Триллион параметров — уже не кошмар для хранения и синхронизации, это просто стандарт. Для стартапов и исследовательских команд это означает: можно работать с огромными моделями на скромном железе и худших сетях, если правильно организовать сжатие дельт.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…