Hugging Face сравнила все альтернативы LoRA: кто побеждает в тонкой настройке LLM
Hugging Face опубликовала масштабное сравнение PEFT-методов тонкой настройки LLM — и спойлер: обогнать LoRA реально, но цена у каждого метода своя. DoRA чуть…
AI-обработка оригинала Hugging Face Blog; редакция Hamidun News
LoRA стала де-факто стандартом тонкой настройки больших языковых моделей: дёшево, быстро, почти везде работает без сюрпризов. Hugging Face решила поставить честный вопрос: можно ли сделать лучше — и если да, то когда именно?
Почему
LoRA держит позиции LoRA (Low-Rank Adaptation) работает просто: вместо того чтобы обновлять все миллиарды весов модели, метод добавляет пару небольших низкоранговых матриц к ключевым слоям. Количество обучаемых параметров падает в 10–1000 раз. Это делает тонкую настройку доступной даже на потребительских GPU.
Именно поэтому LoRA стала повсеместной: её используют для дообучения Llama и Mistral, для создания кастомных стилей в Stable Diffusion, для адаптации корпоративных LLM под специфику домена. Библиотека Hugging Face PEFT насчитывает сотни тысяч загрузок в неделю. Но у LoRA есть слабые места.
При высоких рангах матриц (rank=64 и выше) обучение нестабилизируется. На задачах, где важна точная передача фактических знаний, метод иногда уступает полному файн-тюнингу. А в сценариях с жёсткими ограничениями по памяти — например, при обучении на одной бюджетной видеокарте — даже LoRA может оказаться слишком прожорливым.
Что проверяла
Hugging Face Команда взяла библиотеку PEFT и провела систематическое сравнение LoRA с пятью альтернативами на реальных downstream-задачах: DoRA — декомпозирует веса на направление и величину, обновляет их независимо, приближая поведение к полному файн-тюнингу LoRA+ — простая идея: матрицы A и B обучаются с разными learning rate, матрица B получает более высокий lr для ускорения сходимости rsLoRA — нормировочный коэффициент, стабилизирующий градиенты при больших значениях rank VeRA — случайные замороженные матрицы, обучаются только крошечные векторы масштабирования; параметров в десятки раз меньше, чем в LoRA * GaLore — проецирует сами градиенты в низкоранговое пространство, экономя память оптимизатора без изменения архитектуры весов Метрики: качество на контрольных задачах (NLU, следование инструкциям, суммаризация), пиковое потребление памяти GPU и скорость одной эпохи обучения.
Кто теснит лидера
Однозначного победителя нет — у каждого метода свой профиль. DoRA показывает стабильно чуть лучшее качество по сравнению с LoRA при том же числе параметров и той же памяти. Особенно заметно на задачах следования инструкциям и reasoning. Цена — чуть большее время обучения из-за дополнительной декомпозиции весов. rsLoRA не улучшает базовое качество, но устраняет нестабильность при высоких рангах. Если нужен rank=128 или выше — rsLoRA практически обязателен, классический LoRA там начинает «плавать». VeRA интересен для сценариев с жёсткими ограничениями на размер адаптера — например, при обслуживании тысяч пользовательских адаптеров на сервере — но чуть проигрывает в качестве.
«LoRA по-прежнему лучший выбор по умолчанию — но знание альтернатив
позволяет выжимать максимум в конкретных условиях», — резюмируют авторы исследования. GaLore открывает возможность обучать на GPU с малым объёмом VRAM, не меняя архитектуру весов. Подходит для pre-training или continued pre-training, когда нужно работать со всеми весами, но памяти катастрофически мало. Обучение при этом заметно медленнее.
Что это значит
Экосистема PEFT взрослеет: вместо одного универсального метода на все случаи жизни формируется матрица инструментов. Для продуктовых команд это означает одно — перед выбором метода тонкой настройки стоит потратить час на сравнительный бенчмарк на своей задаче, а не брать LoRA по инерции. Шансы, что альтернатива даст заметный прирост именно на вашем сценарии, сейчас выше, чем когда-либо.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.
Главное из мира ИИ — раз в неделю
7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.
Готово! Проверьте почту — мы отправили подтверждение.