Treinamento

LoRA (Low-Rank Adaptation)

LoRA é uma técnica de fine-tuning parameter-efficient que adiciona pares de matriz low-rank treináveis a camadas de modelos pré-treinados congeladas, permitindo adaptação de modelos grandes com uma fração da contagem de parâmetros original.

LoRA (Low-Rank Adaptation) é um método para fine-tuning de grandes redes neurais pré-treinadas inserindo pequenas decomposições low-rank treináveis em cada matriz de pesos alvo enquanto mantém os pesos originais do modelo congelados. Foi introduzido por Edward Hu e colegas na Microsoft Research em um paper de 2021 (publicado em ICLR 2022) e desde então tornou-se a técnica dominante de fine-tuning parameter-efficient (PEFT) para grandes modelos de linguagem.

Para uma matriz de pesos W de formato d × k em uma camada transformer, LoRA introduz duas pequenas matrizes B (d × r) e A (r × k), onde o rank r é muito menor que ambos d e k — tipicamente 4, 8 ou 16. Durante o forward pass, o peso efetivo se torna W + BA; apenas B e A são atualizados durante o treinamento enquanto W fica congelada. Como r é ordens de magnitude menor que d, contagens de parâmetros treináveis caem dramaticamente: fine-tuning de um modelo de 7-bilhão-parâmetros com LoRA em rank 8 tipicamente requer atualizar menos de 20 milhões de parâmetros em vez de todos os 7 bilhões, cortando requisitos de memória de optimizer por um fator comparável.

A importância prática de LoRA é tríplice. Primeiro, torna fine-tuning viável em hardware que não pode manter um estado de optimizer completo para um grande modelo. Segundo, múltiplos adaptadores LoRA podem ser armazenados e trocados dinamicamente em cima de um modelo base compartilhado, permitindo servir eficientemente variantes customizadas para diferentes usuários ou tarefas sem duplicar pesos base na memória. Terceiro, arquivos de adapter são compactos — frequentemente dezenas a centenas de megabytes — tornando compartilhamento comunitário direto; o Hugging Face Hub hospeda milhares de adaptadores LoRA publicamente liberados para modelos através de muitos domínios.

Por 2026, LoRA é nativamente integrado à biblioteca Hugging Face PEFT e é o método de fine-tuning padrão na maioria das ferramentas LLM open-source, incluindo Axolotl, LLaMA-Factory e Unsloth. Variantes como DoRA (weight-decomposed LoRA) e rsLoRA (rank-stabilized scaling) abordam limitações de estabilidade e expressividade da formulação original. Plataformas de fine-tuning comerciais da OpenAI, Together AI e Fireworks AI oferecem customização baseada em LoRA como um serviço gerenciado sem setup de infraestrutura necessário.

Exemplo

Uma empresa adapta Llama 3 8B para responder perguntas específicas de domínio de suporte ao cliente fazendo fine-tuning de adaptadores LoRA em rank 16 em um conjunto de dados de 5.000 tickets resolvidos; parâmetros treináveis totais são menos de 10 milhões, treinamento completa em um único GPU em algumas horas, e o arquivo do adapter resultante é aproximadamente 40 MB.

Termos relacionados

Últimas notícias sobre o tema

← Glossário