Treinamento

QLoRA

QLoRA é um método de fine-tuning que quantiza um modelo base congelado para precisão de 4-bit enquanto treina adaptadores LoRA em precisão maior, permitindo grandes modelos de linguagem serem fine-tuned em um único GPU de consumidor ou profissional.

QLoRA (Quantized Low-Rank Adaptation) é uma extensão de LoRA introduzida por Tim Dettmers e colegas na Universidade de Washington em um paper de 2023 (NeurIPS 2023). LoRA padrão reduz parâmetros treináveis mas ainda requer carregar o modelo base completo em memória GPU em precisão 16-bit, tornando modelos acima de aproximadamente 13 bilhões de parâmetros impraticáveis para fine-tuning em um único GPU. QLoRA resolve isso armazenando os pesos de modelo base congelados em formato quantizado 4-bit, enquanto os pesos de adapter LoRA são treinados e atualizados em precisão 16-bit bfloat.

QLoRA se baseia em três inovações técnicas. NormalFloat 4-bit (NF4) é um tipo de dados de quantização projetado para tensores de pesos que seguem uma distribuição aproximadamente normal, alcançando melhor fidelidade que quantização 4-bit inteira padrão na mesma largura de bit. Quantização dupla comprime ainda mais as constantes de quantização por-bloco elas mesmas, recuperando memória adicional com custo de acurácia negligenciável. Otimizadores paginados usam o sistema de memória unificada da NVIDIA para lidar com picos de estado do otimizador ao paginar transparentemente dados entre GPU e RAM de CPU, prevenindo crashes de falta de memória durante passos de gradiente. Juntas essas técnicas reduzem a pegada de memória de um modelo de 65-bilhão-parâmetros de mais de 130 GB em float16 para menos de 48 GB, permitindo fine-tuning em um único GPU A100 de 80 GB.

O efeito democratizador foi significante. Antes de QLoRA, fine-tuning de modelos maiores que 13 bilhões de parâmetros exigia clusters de servidor multi-GPU. Depois de seu lançamento, modelos de 33B e 65B tornaram-se fine-tunable em um único GPU profissional, e modelos menores em hardware RTX 4090 de consumidor. O paper original demonstrou isso ao produzir Guanaco, uma série de modelos instruction-tuned que aproximadamente igualavam GPT-3.5 em um benchmark de preferência humana apesar de serem fine-tuned em um único GPU em menos de 24 horas.

Por 2026, QLoRA é integrado em bibliotecas de fine-tuning maiores incluindo bitsandbytes, Axolotl e Unsloth, e é rotineiramente usado em workflows de pesquisa e produção. A técnica foi estendida para arquiteturas de visão-linguagem e multimodal. Limitações residuais incluem uma penalidade de acurácia pequena mas mensurável relativa a LoRA de precisão completa, particularmente em ranks muito baixos ou com modelos menores altamente comprimidos; praticantes mitigam isso usando ranks ligeiramente maiores, quantização de 8-bit onde a memória permite, ou camadas intermediárias de precisão mista.

Exemplo

Um grupo de pesquisa universitária usa QLoRA para fine-tuning de um modelo Mistral de 13-bilhão-parâmetros em um conjunto de dados curado de papers científicos, carregando o modelo base quantizado 4-bit em aproximadamente 7 GB de VRAM e treinando adaptadores LoRA em bfloat16 em um único GPU RTX 4090 — hardware que seria completamente insuficiente para fine-tuning de precisão completa de um modelo nesse tamanho.

Termos relacionados

LoRA (Low-Rank Adaptation)Quantização Fine-tuning

Últimas notícias sobre o tema

Como treinar AI com preferências humanas: guia de DPO e QLoRA2026-02-13

← Glossário