QLoRA
QLoRA é um método de fine-tuning que quantiza um modelo base congelado para precisão de 4-bit enquanto treina adaptadores LoRA em precisão maior, permitindo grandes modelos de linguagem serem fine-tuned em um único GPU de consumidor ou profissional.
QLoRA (Quantized Low-Rank Adaptation) é uma extensão de LoRA introduzida por Tim Dettmers e colegas na Universidade de Washington em um paper de 2023 (NeurIPS 2023). LoRA padrão reduz parâmetros treináveis mas ainda requer carregar o modelo base completo em memória GPU em precisão 16-bit, tornando modelos acima de aproximadamente 13 bilhões de parâmetros impraticáveis para fine-tuning em um único GPU. QLoRA resolve isso armazenando os pesos de modelo base congelados em formato quantizado 4-bit, enquanto os pesos de adapter LoRA são treinados e atualizados em precisão 16-bit bfloat.
QLoRA se baseia em três inovações técnicas. NormalFloat 4-bit (NF4) é um tipo de dados de quantização projetado para tensores de pesos que seguem uma distribuição aproximadamente normal, alcançando melhor fidelidade que quantização 4-bit inteira padrão na mesma largura de bit. Quantização dupla comprime ainda mais as constantes de quantização por-bloco elas mesmas, recuperando memória adicional com custo de acurácia negligenciável. Otimizadores paginados usam o sistema de memória unificada da NVIDIA para lidar com picos de estado do otimizador ao paginar transparentemente dados entre GPU e RAM de CPU, prevenindo crashes de falta de memória durante passos de gradiente. Juntas essas técnicas reduzem a pegada de memória de um modelo de 65-bilhão-parâmetros de mais de 130 GB em float16 para menos de 48 GB, permitindo fine-tuning em um único GPU A100 de 80 GB.
O efeito democratizador foi significante. Antes de QLoRA, fine-tuning de modelos maiores que 13 bilhões de parâmetros exigia clusters de servidor multi-GPU. Depois de seu lançamento, modelos de 33B e 65B tornaram-se fine-tunable em um único GPU profissional, e modelos menores em hardware RTX 4090 de consumidor. O paper original demonstrou isso ao produzir Guanaco, uma série de modelos instruction-tuned que aproximadamente igualavam GPT-3.5 em um benchmark de preferência humana apesar de serem fine-tuned em um único GPU em menos de 24 horas.
Por 2026, QLoRA é integrado em bibliotecas de fine-tuning maiores incluindo bitsandbytes, Axolotl e Unsloth, e é rotineiramente usado em workflows de pesquisa e produção. A técnica foi estendida para arquiteturas de visão-linguagem e multimodal. Limitações residuais incluem uma penalidade de acurácia pequena mas mensurável relativa a LoRA de precisão completa, particularmente em ranks muito baixos ou com modelos menores altamente comprimidos; praticantes mitigam isso usando ranks ligeiramente maiores, quantização de 8-bit onde a memória permite, ou camadas intermediárias de precisão mista.