Hugging Face сравнила все альтернативы LoRA: кто побеждает в тонкой настройке LLM

Hugging Face опубликовала масштабное сравнение PEFT-методов тонкой настройки LLM — и спойлер: обогнать LoRA реально, но цена у каждого метода своя. DoRA чуть…

Redação da Hamidun News

Monitoramento de AI · Hugging Face Blog

29 de jun. de 2026· 2 min

Processado por IA de Hugging Face Blog; editado por Hamidun News

Hugging Face сравнила все альтернативы LoRA: кто побеждает в тонкой настройке LLM — Fonte: Hugging Face Blog. Colagem: Hamidun News.

◐ Ouvir artigo

LoRA se tornou o padrão de facto para o ajuste fino de modelos de linguagem grandes: barato, rápido e funciona quase em qualquer lugar sem surpresas. Hugging Face decidiu fazer uma pergunta honesta: podemos fazer melhor — e se sim, quando exatamente?

Por Que LoRA Mantém Suas Posições

LoRA (Low-Rank Adaptation) funciona simplesmente: em vez de atualizar todos os bilhões de pesos de um modelo, o método adiciona um par de pequenas matrizes de baixo-rank às camadas-chave. O número de parâmetros treináveis cai 10–1000 vezes. Isso torna o ajuste fino acessível até em GPUs de consumidor.

É por isso que LoRA se tornou onipresente: é usada para treinamento adicional de Llama e Mistral, para criar estilos personalizados em Stable Diffusion, para adaptar LLMs corporativos às necessidades específicas do domínio. A biblioteca PEFT da Hugging Face tem centenas de milhares de downloads por semana. Mas LoRA tem fraquezas.

Em ranks altos de matriz (rank=64 e acima), o treinamento fica instável. Em tarefas onde a transferência precisa de conhecimento é importante, o método às vezes perde para o ajuste fino completo. E em cenários com restrições severas de memória — por exemplo, treinamento em uma única placa gráfica orçamentária — até mesmo LoRA pode se mostrar muito gulosa em recursos.

O Que Hugging Face Testou

A equipe pegou a biblioteca PEFT e conduziu uma comparação sistemática de LoRA com cinco alternativas em tarefas downstream reais:

DoRA — decompõe pesos em direção e magnitude, os atualiza independentemente, aproximando o comportamento do ajuste fino completo
LoRA+ — ideia simples: as matrizes A e B são treinadas com taxas de aprendizado diferentes, a matriz B recebe uma taxa maior para acelerar a convergência
rsLoRA — coeficiente de normalização que estabiliza gradientes em valores altos de rank
VeRA — matrizes aleatórias congeladas, apenas pequenos vetores de escala são treinados; parâmetros dezenas de vezes menos que LoRA
GaLore — projeta os próprios gradientes no espaço de baixo-rank, economizando memória do otimizador sem alterar a arquitetura dos pesos

Métricas: qualidade nas tarefas de controle (NLU, seguimento de instruções, sumarização), consumo máximo de memória da GPU e velocidade de uma época de treinamento.

Quem Está Desafiando o Líder

Não há um claro vencedor — cada método tem seu próprio perfil. DoRA mostra consistentemente qualidade um pouco melhor comparada a LoRA com o mesmo número de parâmetros e memória. Especialmente notável em tarefas de seguimento de instruções e raciocínio. O custo é um tempo de treinamento ligeiramente maior devido à decomposição adicional de pesos. rsLoRA não melhora a qualidade de base, mas elimina a instabilidade em ranks altos. Se você precisa de rank=128 ou superior — rsLoRA é praticamente obrigatório, LoRA clássico começa a "flutuar" lá. VeRA é interessante para cenários com restrições severas no tamanho do adaptador — por exemplo, ao servir milhares de adaptadores de usuário em um servidor — mas perde um pouco em qualidade.

"LoRA continua sendo a melhor escolha padrão — mas o conhecimento de

alternativas permite maximizar o desempenho em condições específicas", concluem os autores do estudo.

GaLore abre a possibilidade de treinar em GPUs com pouca VRAM sem alterar a arquitetura dos pesos. Adequado para pré-treinamento ou pré-treinamento continuado, quando você precisa trabalhar com todos os pesos, mas tem pouca memória criticamente. O treinamento é notavelmente mais lento neste caso.

O Que Isso Significa

O ecossistema PEFT está maduro: em vez de um método universal para todos os casos, uma matriz de ferramentas está se formando. Para equipes de produto, isso significa uma coisa — antes de escolher um método de ajuste fino, vale a pena gastar uma hora em um benchmark comparativo em sua própria tarefa, em vez de usar LoRA por inércia. As chances de que uma alternativa dê uma melhoria notável precisamente em seu cenário agora são mais altas do que nunca.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis