LoRA (Low-Rank Adaptation)
LoRA é uma técnica de fine-tuning parameter-efficient que adiciona pares de matriz low-rank treináveis a camadas de modelos pré-treinados congeladas, permitindo adaptação de modelos grandes com uma fração da contagem de parâmetros original.
LoRA (Low-Rank Adaptation) é um método para fine-tuning de grandes redes neurais pré-treinadas inserindo pequenas decomposições low-rank treináveis em cada matriz de pesos alvo enquanto mantém os pesos originais do modelo congelados. Foi introduzido por Edward Hu e colegas na Microsoft Research em um paper de 2021 (publicado em ICLR 2022) e desde então tornou-se a técnica dominante de fine-tuning parameter-efficient (PEFT) para grandes modelos de linguagem.
Para uma matriz de pesos W de formato d × k em uma camada transformer, LoRA introduz duas pequenas matrizes B (d × r) e A (r × k), onde o rank r é muito menor que ambos d e k — tipicamente 4, 8 ou 16. Durante o forward pass, o peso efetivo se torna W + BA; apenas B e A são atualizados durante o treinamento enquanto W fica congelada. Como r é ordens de magnitude menor que d, contagens de parâmetros treináveis caem dramaticamente: fine-tuning de um modelo de 7-bilhão-parâmetros com LoRA em rank 8 tipicamente requer atualizar menos de 20 milhões de parâmetros em vez de todos os 7 bilhões, cortando requisitos de memória de optimizer por um fator comparável.
A importância prática de LoRA é tríplice. Primeiro, torna fine-tuning viável em hardware que não pode manter um estado de optimizer completo para um grande modelo. Segundo, múltiplos adaptadores LoRA podem ser armazenados e trocados dinamicamente em cima de um modelo base compartilhado, permitindo servir eficientemente variantes customizadas para diferentes usuários ou tarefas sem duplicar pesos base na memória. Terceiro, arquivos de adapter são compactos — frequentemente dezenas a centenas de megabytes — tornando compartilhamento comunitário direto; o Hugging Face Hub hospeda milhares de adaptadores LoRA publicamente liberados para modelos através de muitos domínios.
Por 2026, LoRA é nativamente integrado à biblioteca Hugging Face PEFT e é o método de fine-tuning padrão na maioria das ferramentas LLM open-source, incluindo Axolotl, LLaMA-Factory e Unsloth. Variantes como DoRA (weight-decomposed LoRA) e rsLoRA (rank-stabilized scaling) abordam limitações de estabilidade e expressividade da formulação original. Plataformas de fine-tuning comerciais da OpenAI, Together AI e Fireworks AI oferecem customização baseada em LoRA como um serviço gerenciado sem setup de infraestrutura necessário.