QLoRA
QLoRA est une méthode de fine-tuning qui quantifie un modèle de base gelé à une précision de 4 bits tout en entraînant des adaptateurs LoRA à une précision plus élevée, permettant aux grands modèles de langage d'être fine-tunés sur un seul GPU de consommateur ou professionnel.
QLoRA (Adaptation à Faible Rang Quantifiée) est une extension de LoRA introduite par Tim Dettmers et ses collègues à l'Université de Washington dans un article de 2023 (NeurIPS 2023). LoRA standard réduit les paramètres entraînables mais nécessite toujours de charger le modèle de base complet dans la mémoire GPU à une précision de 16 bits, rendant les modèles au-dessus d'environ 13 milliards de paramètres impratiques à fine-tuner sur un seul GPU. QLoRA résout ce problème en stockant les poids du modèle de base gelé dans un format quantifié de 4 bits, tandis que les poids de l'adaptateur LoRA sont entraînés et mis à jour à une précision bfloat16.
QLoRA s'appuie sur trois innovations techniques. NormalFloat 4-bit (NF4) est un type de données de quantification conçu pour les tenseurs de poids qui suivent une distribution approximativement normale, réalisant une meilleure fidélité que la quantification entière standard de 4 bits à la même largeur de bit. La quantification double compresse davantage les constantes de quantification par bloc elles-mêmes, récupérant de la mémoire supplémentaire à un coût de précision négligeable. Les optimiseurs paginés utilisent le système de mémoire unifié de NVIDIA pour gérer les pics d'état de l'optimiseur en paginant de manière transparente les données entre la RAM du GPU et du CPU, empêchant les crashes hors mémoire lors des étapes de gradient. Ensemble, ces techniques réduisent l'empreinte mémoire d'un modèle de 65 milliards de paramètres de plus de 130 GB en float16 à moins de 48 GB, permettant le fine-tuning sur un seul GPU A100 de 80 GB.
L'effet de démocratisation était significatif. Avant QLoRA, le fine-tuning de modèles plus grands que 13 milliards de paramètres nécessitait des clusters de serveurs multi-GPU. Après son lancement, les modèles 33B et 65B sont devenus fine-tunables sur un seul GPU professionnel, et les modèles plus petits sur du matériel RTX 4090 de consommateur. L'article original a démontré cela en produisant Guanaco, une série de modèles instruction-tunés qui correspondaient étroitement à GPT-3.5 sur un benchmark de préférence humaine malgré le fine-tuning sur un seul GPU en moins de 24 heures.
En 2026, QLoRA est intégré dans les principales bibliothèques de fine-tuning incluant bitsandbytes, Axolotl et Unsloth, et est régulièrement utilisé dans les flux de travail de recherche et de production. La technique a été étendue aux architectures vision-langage et multimodales. Les limitations résiduelles incluent une pénalité de précision petite mais mesurable par rapport à LoRA à précision complète, particulièrement à des rangs très bas ou avec des modèles plus petits hautement comprimés ; les praticiens atténuent cela en utilisant des rangs légèrement plus élevés, une quantification de 8 bits où la mémoire le permet, ou des couches intermédiaires de précision mixte.