Entrenamiento

QLoRA

QLoRA es un método de fine-tuning que cuantiza un modelo base congelado a precisión de 4 bits mientras entrena adaptadores LoRA a precisión más alta, permitiendo que los grandes modelos de lenguaje se sometan a fine-tuning en una sola GPU de consumo o profesional.

QLoRA (adaptación cuantizada de bajo rango) es una extensión de LoRA introducida por Tim Dettmers y colegas en la Universidad de Washington en un artículo de 2023 (NeurIPS 2023). LoRA estándar reduce los parámetros entrenables pero aún requiere cargar el modelo base completo en la memoria de GPU a precisión de 16 bits, haciendo que los modelos por encima de aproximadamente 13 mil millones de parámetros sean imprácticos para hacer fine-tuning en una sola GPU. QLoRA resuelve esto almacenando los pesos del modelo base congelado en formato cuantizado de 4 bits, mientras que los pesos del adaptador LoRA se entrenan y actualizan a precisión bfloat de 16 bits.

QLoRA se basa en tres innovaciones técnicas. NormalFloat 4-bit (NF4) es un tipo de dato de cuantización diseñado para tensores de peso que siguen una distribución aproximadamente normal, logrando mejor fidelidad que la cuantización de enteros de 4 bits estándar al mismo ancho de bits. La cuantización doble comprime aún más las constantes de cuantización por bloque, recuperando memoria adicional a costo de precisión despreciable. Los optimizadores paginados utilizan el sistema de memoria unificada de NVIDIA para manejar picos de estado del optimizador paginando transparentemente datos entre RAM de GPU y CPU, previniendo fallos por falta de memoria durante pasos de gradiente. Juntas, estas técnicas reducen la huella de memoria de un modelo de 65 mil millones de parámetros de más de 130 GB en float16 a menos de 48 GB, permitiendo fine-tuning en una sola GPU A100 de 80 GB.

El efecto democratizador fue significativo. Antes de QLoRA, hacer fine-tuning de modelos más grandes que 13 mil millones de parámetros requería clústeres de servidores multi-GPU. Después de su lanzamiento, los modelos 33B y 65B se volvieron fine-tuneables en una sola GPU profesional, y modelos más pequeños en hardware de consumo RTX 4090. El artículo original demostró esto produciendo Guanaco, una serie de modelos ajustados mediante instrucciones que coincidían estrechamente con GPT-3.5 en un benchmark de preferencia humana a pesar de ser fine-tuned en una sola GPU en menos de 24 horas.

A partir de 2026, QLoRA se integra en bibliotecas de fine-tuning principales incluyendo bitsandbytes, Axolotl y Unsloth, y se utiliza rutinariamente en flujos de trabajo de investigación y producción. La técnica ha sido extendida a arquitecturas de visión-lenguaje y multimodales. Las limitaciones residuales incluyen una pequeña pero medible penalización de precisión relativa a LoRA de precisión completa, particularmente en rangos muy bajos o con modelos más pequeños altamente comprimidos; los practicantes mitigan esto usando rangos ligeramente más altos, cuantización de 8 bits donde la memoria lo permite, o capas intermedias de precisión mixta.

Ejemplo

Un grupo de investigación de universidad utiliza QLoRA para hacer fine-tuning de un modelo Mistral de 13 mil millones de parámetros en un dataset curado de artículos científicos, cargando el modelo base cuantizado de 4 bits en aproximadamente 7 GB de VRAM y entrenando adaptadores LoRA en bfloat16 en una sola RTX 4090 —hardware que sería completamente insuficiente para fine-tuning de precisión completa de un modelo de este tamaño.

Términos relacionados

Últimas noticias sobre el tema

← Glosario