Por qué LoRA falla en producción y cómo RS-LoRA salva el ajuste fino de modelos
LoRA funciona bien cuando los modelos necesitan cambiar tono, formato o personalidad, pero funciona peor cuando se necesita añadir nuevos hechos a ella. El prob

LoRA давно стала стандартом для дешёвого дообучения больших моделей, но в продакшене у неё есть скрытое допущение: будто все обновления весов устроены одинаково. На практике это не так — изменения, отвечающие за стиль, действительно компактны, а обновления, которые добавляют новые факты и доменную экспертизу, распределены по многим измерениям, и именно здесь обычная LoRA начинает терять данные. Популярность LoRA объяснима: метод позволяет дообучать модель без полного пересчёта всех параметров, используя небольшие низкоранговые матрицы.
Это отлично работает, когда нужно поменять тон, формат ответа, персонажа или речевые привычки ассистента. В статье это показывают на упрощённой матрице весов 64×64: у стилевого обновления несколько сингулярных значений резко доминируют, поэтому аппроксимация ранга 4 или 8 почти полностью сохраняет сигнал. В их симуляции уже при ранге 4 удаётся покрыть больше 99% полезной вариации.
Поэтому чат-бот легко учится новому стилю общения, шаблону ответа или нужной манере без тяжёлого переобучения всей модели. Проблемы начинаются там, где нужно обучить не форме, а содержанию: медицинским фактам, продуктовым каталогам, внутренним регламентам, статистике или отраслевым правилам. Такие обновления ведут себя как высокоранговые: информация размазана по множеству направлений, а не собрана в нескольких доминирующих компонентах.
В эксперименте из статьи ранг 8 удерживает лишь около 28% фактического сигнала. Отсюда знакомый для продакшена эффект: модель звучит уверенно, использует правильную терминологию и общую структуру ответа, но путает цифры, упускает детали или даёт неполный вывод. Для корпоративных ассистентов, аналитики, саппорта и сценариев, завязанных на знаниях, это уже не косметическая ошибка, а риск качества.
Ключевая разница хорошо видна в спектре сингулярных значений. У стилевых задач есть явный локоть: после нескольких компонент добавочные измерения почти ничего не дают. У фактов — длинный хвост, где каждая следующая компонента добавляет часть полезного знания.
Когда LoRA жёстко обрезает такое обновление до низкого ранга, она отрезает именно этот хвост. Внешне система всё равно может выглядеть улучшенной, потому что формат, тон и структура стали аккуратнее, но фактическая точность растёт заметно слабее, чем кажется по поверхностным тестам. Это объясняет, почему демо с красивыми ответами и хорошим стилем не гарантируют надёжного поведения на рабочих данных.
Логичная реакция инженера — просто поднять ранг. Но у стандартной LoRA есть вторая скрытая проблема: масштабирование alpha/r. Чем выше ранг, тем сильнее сжимается коэффициент и тем слабее становится обучающий сигнал.
В примере с alpha = 16 масштаб падает с 16 при ранге 1 до 0,25 при ранге 64. Получается парадокс: ты добавляешь модели ёмкость, чтобы она могла представить более сложное обновление, но одновременно уменьшаешь реальное влияние этого обновления на веса. Оптимизатору приходится компенсировать это более агрессивными шагами, из-за чего обучение либо сходится хуже, либо становится нестабильным.
Поэтому совет поднять ранг в продакшене часто не решает проблему, а иногда только маскирует её. RS-LoRA предлагает минимальную, но важную правку: использовать alpha/√r вместо alpha/r. Формально это почти замена одного символа, но на практике эффект большой.
При ранге 64 масштаб остаётся 2,0 вместо 0,25, поэтому высокоранговая адаптация сохраняет осмысленную величину и не убивает сигнал. В статье это показывают без тяжёлых циклов обучения и фреймворков — только через NumPy, SVD и сравнение ошибок реконструкции. За счёт этого аргумент выглядит особенно наглядно: низкоранговые стилевые задачи по-прежнему хорошо решаются обычной LoRA, а задачи на добавление знаний требуют либо RS-LoRA, либо изначально другой стратегии адаптации.
Вывод для команд, которые выкатывают дообученные LLM в прод, довольно прямой: конфигурацию адаптера нужно выбирать не только по бюджету и скорости, но и по типу обновления. Если ты меняешь тон, персонажа или формат ответа, стандартная низкоранговая LoRA обычно достаточна. Если ты внедряешь новые факты, справочные данные, правила или доменную экспертизу, низкий ранг может создать иллюзию успешного обучения, тихо потеряв существенную часть информации.
В таких случаях RS-LoRA выглядит уже не как тонкая оптимизация, а как требование к надёжности модели в реальной эксплуатации.