QLoRA
QLoRA — метод дообучения LLM, совмещающий 4-битную квантизацию базовой модели с LoRA-адаптерами в полной точности; позволяет дообучать модели с 65 млрд параметров на одном GPU с 48 ГБ VRAM вместо кластера из нескольких A100.
QLoRA (Quantized LoRA) предложена Тимом Дэттмерсом (Tim Dettmers) и соавторами из Вашингтонского университета в 2023 году. Метод объединяет агрессивную квантизацию весов базовой модели до 4 бит с обучением LoRA-адаптеров в стандартной точности (bfloat16). Это сокращает объём GPU-памяти, занимаемой базовой моделью, приблизительно в 4 раза по сравнению с форматом fp16 при сопоставимом качестве результата.
QLoRA вводит три технических новшества. Первое — NF4 (NormalFloat4): 4-битный формат, математически оптимизированный для нормально распределённых весов нейросетей и минимизирующий ошибку квантизации. Второе — двойная квантизация: квантизация самих констант квантизации, экономящая дополнительно около 0,4 бита на параметр. Третье — страничный оптимизатор (paged optimizer): автоматическое перемещение состояний оптимизатора Adam в CPU-память при пиковой нагрузке и обратно по мере необходимости. Градиенты при обратном распространении проходят через замороженные квантизованные веса и обновляют только LoRA-матрицы в bfloat16.
До QLoRA дообучение 65B-модели требовало кластера GPU с суммарной памятью свыше 320 ГБ. Оригинальная статья продемонстрировала, что модели, дообученные методом QLoRA (Guanaco 65B), показывают конкурентоспособное качество по сравнению с ChatGPT на ряде бенчмарков при бюджете обучения менее 300 долларов на облачных GPU.
К 2026 году QLoRA интегрирована в основные фреймворки: библиотеку bitsandbytes, Hugging Face TRL и PEFT, Axolotl, Unsloth. Последний дополнительно оптимизирует вычисления через кастомные CUDA-ядра, достигая 2–5-кратного ускорения QLoRA-обучения. Метод остаётся основным способом дообучения 70B+ моделей на одиночных GPU в исследовательских и малобюджетных производственных средах.