MarkTechPost→ оригинал

Почему LoRA ломается в продакшене и как RS-LoRA спасает дообучение моделей

LoRA хороша, когда модели нужно поменять тон, формат или персону, но хуже работает там, где в неё надо добавить новые факты. Проблема в том, что низкий ранг реж

Почему LoRA ломается в продакшене и как RS-LoRA спасает дообучение моделей
Источник: MarkTechPost. Коллаж: Hamidun News.

LoRA давно стала стандартом для дешёвого дообучения больших моделей, но в продакшене у неё есть скрытое допущение: будто все обновления весов устроены одинаково. На практике это не так — изменения, отвечающие за стиль, действительно компактны, а обновления, которые добавляют новые факты и доменную экспертизу, распределены по многим измерениям, и именно здесь обычная LoRA начинает терять данные. Популярность LoRA объяснима: метод позволяет дообучать модель без полного пересчёта всех параметров, используя небольшие низкоранговые матрицы.

Это отлично работает, когда нужно поменять тон, формат ответа, персонажа или речевые привычки ассистента. В статье это показывают на упрощённой матрице весов 64×64: у стилевого обновления несколько сингулярных значений резко доминируют, поэтому аппроксимация ранга 4 или 8 почти полностью сохраняет сигнал. В их симуляции уже при ранге 4 удаётся покрыть больше 99% полезной вариации.

Поэтому чат-бот легко учится новому стилю общения, шаблону ответа или нужной манере без тяжёлого переобучения всей модели. Проблемы начинаются там, где нужно обучить не форме, а содержанию: медицинским фактам, продуктовым каталогам, внутренним регламентам, статистике или отраслевым правилам. Такие обновления ведут себя как высокоранговые: информация размазана по множеству направлений, а не собрана в нескольких доминирующих компонентах.

В эксперименте из статьи ранг 8 удерживает лишь около 28% фактического сигнала. Отсюда знакомый для продакшена эффект: модель звучит уверенно, использует правильную терминологию и общую структуру ответа, но путает цифры, упускает детали или даёт неполный вывод. Для корпоративных ассистентов, аналитики, саппорта и сценариев, завязанных на знаниях, это уже не косметическая ошибка, а риск качества.

Ключевая разница хорошо видна в спектре сингулярных значений. У стилевых задач есть явный локоть: после нескольких компонент добавочные измерения почти ничего не дают. У фактов — длинный хвост, где каждая следующая компонента добавляет часть полезного знания.

Когда LoRA жёстко обрезает такое обновление до низкого ранга, она отрезает именно этот хвост. Внешне система всё равно может выглядеть улучшенной, потому что формат, тон и структура стали аккуратнее, но фактическая точность растёт заметно слабее, чем кажется по поверхностным тестам. Это объясняет, почему демо с красивыми ответами и хорошим стилем не гарантируют надёжного поведения на рабочих данных.

Логичная реакция инженера — просто поднять ранг. Но у стандартной LoRA есть вторая скрытая проблема: масштабирование alpha/r. Чем выше ранг, тем сильнее сжимается коэффициент и тем слабее становится обучающий сигнал.

В примере с alpha = 16 масштаб падает с 16 при ранге 1 до 0,25 при ранге 64. Получается парадокс: ты добавляешь модели ёмкость, чтобы она могла представить более сложное обновление, но одновременно уменьшаешь реальное влияние этого обновления на веса. Оптимизатору приходится компенсировать это более агрессивными шагами, из-за чего обучение либо сходится хуже, либо становится нестабильным.

Поэтому совет поднять ранг в продакшене часто не решает проблему, а иногда только маскирует её. RS-LoRA предлагает минимальную, но важную правку: использовать alpha/√r вместо alpha/r. Формально это почти замена одного символа, но на практике эффект большой.

При ранге 64 масштаб остаётся 2,0 вместо 0,25, поэтому высокоранговая адаптация сохраняет осмысленную величину и не убивает сигнал. В статье это показывают без тяжёлых циклов обучения и фреймворков — только через NumPy, SVD и сравнение ошибок реконструкции. За счёт этого аргумент выглядит особенно наглядно: низкоранговые стилевые задачи по-прежнему хорошо решаются обычной LoRA, а задачи на добавление знаний требуют либо RS-LoRA, либо изначально другой стратегии адаптации.

Вывод для команд, которые выкатывают дообученные LLM в прод, довольно прямой: конфигурацию адаптера нужно выбирать не только по бюджету и скорости, но и по типу обновления. Если ты меняешь тон, персонажа или формат ответа, стандартная низкоранговая LoRA обычно достаточна. Если ты внедряешь новые факты, справочные данные, правила или доменную экспертизу, низкий ранг может создать иллюзию успешного обучения, тихо потеряв существенную часть информации.

В таких случаях RS-LoRA выглядит уже не как тонкая оптимизация, а как требование к надёжности модели в реальной эксплуатации.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…