LoRA (Adaptation à Faible Rang)
LoRA est une technique de fine-tuning efficace en paramètres qui ajoute des paires de matrices de faible rang entraînables aux couches de modèles pré-entraînés gelés, permettant l'adaptation de grands modèles avec une fraction du nombre de paramètres d'origine.
LoRA (Adaptation à Faible Rang) est une méthode de fine-tuning de grands réseaux de neurones pré-entraînés en insérant des décompositions de faible rang entraînables et petites dans chaque matrice de poids cible tout en gardant les poids du modèle d'origine gelés. Elle a été introduite par Edward Hu et ses collègues à Microsoft Research dans un article de 2021 (publié à ICLR 2022) et est devenue depuis la technique dominante de fine-tuning efficace en paramètres (PEFT) pour les grands modèles de langage.
Pour une matrice de poids W de forme d × k dans une couche transformer, LoRA introduit deux petites matrices B (d × r) et A (r × k), où le rang r est beaucoup plus petit que d et k — typiquement 4, 8 ou 16. Lors de la passe avant, le poids effectif devient W + BA ; seuls B et A sont mis à jour pendant l'entraînement tandis que W reste gelé. Parce que r est plusieurs ordres de grandeur plus petit que d, les nombres de paramètres entraînables diminuent considérablement : le fine-tuning d'un modèle de 7 milliards de paramètres avec LoRA au rang 8 nécessite généralement de mettre à jour moins de 20 millions de paramètres au lieu de tous les 7 milliards, réduisant les besoins en mémoire de l'optimiseur par un facteur comparable.
L'importance pratique de LoRA est triple. Premièrement, cela rend le fine-tuning possible sur du matériel qui ne peut pas contenir un état d'optimiseur complet pour un grand modèle. Deuxièmement, plusieurs adaptateurs LoRA peuvent être stockés et permutés à chaud au-dessus d'un seul modèle de base partagé, permettant une distribution efficace multi-locataire de variantes personnalisées sans dupliquer les poids de base en mémoire. Troisièmement, les fichiers d'adaptateur sont compacts — généralement des dizaines à des centaines de mégaoctets — rendant le partage communautaire simple ; le Hub Hugging Face accueille des milliers d'adaptateurs LoRA publiquement diffusés pour les modèles dans de nombreux domaines.
En 2026, LoRA est intégré nativement dans la bibliothèque Hugging Face PEFT et est la méthode de fine-tuning par défaut dans la plupart des outils LLM open-source, incluant Axolotl, LLaMA-Factory et Unsloth. Les variantes telles que DoRA (LoRA décomposé en poids) et rsLoRA (mise à l'échelle stabilisée en rang) traitent les limitations de stabilité et d'expressivité de la formulation d'origine. Les plates-formes de fine-tuning commerciales d'OpenAI, Together AI et Fireworks AI offrent la personnalisation basée sur LoRA comme un service géré sans configuration d'infrastructure requise.