Hugging Face сравнила все альтернативы LoRA: кто побеждает в тонкой настройке LLM
Hugging Face опубликовала масштабное сравнение PEFT-методов тонкой настройки LLM — и спойлер: обогнать LoRA реально, но цена у каждого метода своя. DoRA чуть…
Processado por IA de Hugging Face Blog; editado por Hamidun News
LoRA se tornou o padrão de facto para o ajuste fino de modelos de linguagem grandes: barato, rápido e funciona quase em qualquer lugar sem surpresas. Hugging Face decidiu fazer uma pergunta honesta: podemos fazer melhor — e se sim, quando exatamente?
Por Que LoRA Mantém Suas Posições
LoRA (Low-Rank Adaptation) funciona simplesmente: em vez de atualizar todos os bilhões de pesos de um modelo, o método adiciona um par de pequenas matrizes de baixo-rank às camadas-chave. O número de parâmetros treináveis cai 10–1000 vezes. Isso torna o ajuste fino acessível até em GPUs de consumidor.
É por isso que LoRA se tornou onipresente: é usada para treinamento adicional de Llama e Mistral, para criar estilos personalizados em Stable Diffusion, para adaptar LLMs corporativos às necessidades específicas do domínio. A biblioteca PEFT da Hugging Face tem centenas de milhares de downloads por semana. Mas LoRA tem fraquezas.
Em ranks altos de matriz (rank=64 e acima), o treinamento fica instável. Em tarefas onde a transferência precisa de conhecimento é importante, o método às vezes perde para o ajuste fino completo. E em cenários com restrições severas de memória — por exemplo, treinamento em uma única placa gráfica orçamentária — até mesmo LoRA pode se mostrar muito gulosa em recursos.
O Que Hugging Face Testou
A equipe pegou a biblioteca PEFT e conduziu uma comparação sistemática de LoRA com cinco alternativas em tarefas downstream reais:
- DoRA — decompõe pesos em direção e magnitude, os atualiza independentemente, aproximando o comportamento do ajuste fino completo
- LoRA+ — ideia simples: as matrizes A e B são treinadas com taxas de aprendizado diferentes, a matriz B recebe uma taxa maior para acelerar a convergência
- rsLoRA — coeficiente de normalização que estabiliza gradientes em valores altos de rank
- VeRA — matrizes aleatórias congeladas, apenas pequenos vetores de escala são treinados; parâmetros dezenas de vezes menos que LoRA
- GaLore — projeta os próprios gradientes no espaço de baixo-rank, economizando memória do otimizador sem alterar a arquitetura dos pesos
Métricas: qualidade nas tarefas de controle (NLU, seguimento de instruções, sumarização), consumo máximo de memória da GPU e velocidade de uma época de treinamento.
Quem Está Desafiando o Líder
Não há um claro vencedor — cada método tem seu próprio perfil. DoRA mostra consistentemente qualidade um pouco melhor comparada a LoRA com o mesmo número de parâmetros e memória. Especialmente notável em tarefas de seguimento de instruções e raciocínio. O custo é um tempo de treinamento ligeiramente maior devido à decomposição adicional de pesos. rsLoRA não melhora a qualidade de base, mas elimina a instabilidade em ranks altos. Se você precisa de rank=128 ou superior — rsLoRA é praticamente obrigatório, LoRA clássico começa a "flutuar" lá. VeRA é interessante para cenários com restrições severas no tamanho do adaptador — por exemplo, ao servir milhares de adaptadores de usuário em um servidor — mas perde um pouco em qualidade.
"LoRA continua sendo a melhor escolha padrão — mas o conhecimento de
alternativas permite maximizar o desempenho em condições específicas", concluem os autores do estudo.
GaLore abre a possibilidade de treinar em GPUs com pouca VRAM sem alterar a arquitetura dos pesos. Adequado para pré-treinamento ou pré-treinamento continuado, quando você precisa trabalhar com todos os pesos, mas tem pouca memória criticamente. O treinamento é notavelmente mais lento neste caso.
O Que Isso Significa
O ecossistema PEFT está maduro: em vez de um método universal para todos os casos, uma matriz de ferramentas está se formando. Para equipes de produto, isso significa uma coisa — antes de escolher um método de ajuste fino, vale a pena gastar uma hora em um benchmark comparativo em sua própria tarefa, em vez de usar LoRA por inércia. As chances de que uma alternativa dê uma melhoria notável precisamente em seu cenário agora são mais altas do que nunca.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.