Entraînement

LoRA (Adaptation à Faible Rang)

LoRA est une technique de fine-tuning efficace en paramètres qui ajoute des paires de matrices de faible rang entraînables aux couches de modèles pré-entraînés gelés, permettant l'adaptation de grands modèles avec une fraction du nombre de paramètres d'origine.

LoRA (Adaptation à Faible Rang) est une méthode de fine-tuning de grands réseaux de neurones pré-entraînés en insérant des décompositions de faible rang entraînables et petites dans chaque matrice de poids cible tout en gardant les poids du modèle d'origine gelés. Elle a été introduite par Edward Hu et ses collègues à Microsoft Research dans un article de 2021 (publié à ICLR 2022) et est devenue depuis la technique dominante de fine-tuning efficace en paramètres (PEFT) pour les grands modèles de langage.

Pour une matrice de poids W de forme d × k dans une couche transformer, LoRA introduit deux petites matrices B (d × r) et A (r × k), où le rang r est beaucoup plus petit que d et k — typiquement 4, 8 ou 16. Lors de la passe avant, le poids effectif devient W + BA ; seuls B et A sont mis à jour pendant l'entraînement tandis que W reste gelé. Parce que r est plusieurs ordres de grandeur plus petit que d, les nombres de paramètres entraînables diminuent considérablement : le fine-tuning d'un modèle de 7 milliards de paramètres avec LoRA au rang 8 nécessite généralement de mettre à jour moins de 20 millions de paramètres au lieu de tous les 7 milliards, réduisant les besoins en mémoire de l'optimiseur par un facteur comparable.

L'importance pratique de LoRA est triple. Premièrement, cela rend le fine-tuning possible sur du matériel qui ne peut pas contenir un état d'optimiseur complet pour un grand modèle. Deuxièmement, plusieurs adaptateurs LoRA peuvent être stockés et permutés à chaud au-dessus d'un seul modèle de base partagé, permettant une distribution efficace multi-locataire de variantes personnalisées sans dupliquer les poids de base en mémoire. Troisièmement, les fichiers d'adaptateur sont compacts — généralement des dizaines à des centaines de mégaoctets — rendant le partage communautaire simple ; le Hub Hugging Face accueille des milliers d'adaptateurs LoRA publiquement diffusés pour les modèles dans de nombreux domaines.

En 2026, LoRA est intégré nativement dans la bibliothèque Hugging Face PEFT et est la méthode de fine-tuning par défaut dans la plupart des outils LLM open-source, incluant Axolotl, LLaMA-Factory et Unsloth. Les variantes telles que DoRA (LoRA décomposé en poids) et rsLoRA (mise à l'échelle stabilisée en rang) traitent les limitations de stabilité et d'expressivité de la formulation d'origine. Les plates-formes de fine-tuning commerciales d'OpenAI, Together AI et Fireworks AI offrent la personnalisation basée sur LoRA comme un service géré sans configuration d'infrastructure requise.

Exemple

Une entreprise adapte Llama 3 8B pour répondre à des questions de support client spécifiques au domaine en entraînant des adaptateurs LoRA au rang 16 sur un ensemble de données de 5 000 tickets résolus ; le nombre total de paramètres entraînables est inférieur à 10 millions, l'entraînement se termine sur un seul GPU en quelques heures, et le fichier d'adaptateur résultant est approximativement de 40 MB.

Termes liés

Fine-tuning QLoRA Quantization Modèle open-weights

Dernières actualités sur le sujet

NVIDIA a montré un moyen efficace d'entraîner Cosmos sur des vidéos de robots via LoRA2026-05-21 Pourquoi LoRA se casse en production et comment RS-LoRA sauve le fine-tuning des modèles2026-04-27 Le Département de la Justice américain soutient xAI dans son différend avec le Colorado sur les règles de régulation de l'IA2026-04-27 Phi-4-Mini de Microsoft : implémentation de la quantification, de RAG et de LoRA dans un seul notebook Jupyter2026-04-23 Comment entraîner AI aux préférences humaines : guide du DPO et de QLoRA2026-02-13

← Glossaire