Hugging Face сравнила все альтернативы LoRA: кто побеждает в тонкой настройке LLM
Hugging Face опубликовала масштабное сравнение PEFT-методов тонкой настройки LLM — и спойлер: обогнать LoRA реально, но цена у каждого метода своя. DoRA чуть…
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
LoRA se ha convertido en el estándar de facto para el ajuste fino de grandes modelos de lenguaje: barato, rápido y funciona en casi cualquier lugar sin sorpresas. Hugging Face decidió hacerse una pregunta honesta: ¿podemos hacerlo mejor — y si es así, cuándo exactamente?
Por Qué LoRA Mantiene Sus Posiciones
LoRA (Low-Rank Adaptation) funciona simplemente: en lugar de actualizar todos los miles de millones de pesos de un modelo, el método añade un par de pequeñas matrices de bajo rango a capas clave. El número de parámetros entrenables cae 10–1000 veces. Esto hace que el ajuste fino sea accesible incluso en GPUs de consumidor.
Por eso LoRA se volvió ubicua: se utiliza para entrenamiento adicional de Llama y Mistral, para crear estilos personalizados en Stable Diffusion, para adaptar LLMs corporativos a necesidades específicas del dominio. La biblioteca PEFT de Hugging Face registra cientos de miles de descargas por semana. Pero LoRA tiene debilidades.
Con rangos de matriz altos (rank=64 y superior), el entrenamiento se vuelve inestable. En tareas donde importa la transferencia precisa de conocimiento, el método a veces pierde ante el ajuste fino completo. Y en escenarios con restricciones severas de memoria — por ejemplo, entrenamiento en una única tarjeta gráfica de presupuesto — incluso LoRA puede resultar demasiado consumidora de recursos.
Qué Probó Hugging Face
El equipo tomó la biblioteca PEFT y realizó una comparación sistemática de LoRA con cinco alternativas en tareas downstream reales:
- DoRA — descompone pesos en dirección y magnitud, los actualiza independientemente, aproximando el comportamiento al ajuste fino completo
- LoRA+ — idea simple: las matrices A y B se entrenan con diferentes tasas de aprendizaje, la matriz B obtiene una tasa más alta para acelerar la convergencia
- rsLoRA — coeficiente de normalización que estabiliza los gradientes en valores altos de rango
- VeRA — matrices congeladas aleatorias, solo se entrenan pequeños vectores de escala; parámetros decenas de veces menos que LoRA
- GaLore — proyecta los propios gradientes en espacio de bajo rango, ahorrando memoria del optimizador sin cambiar la arquitectura de pesos
Métricas: calidad en tareas de control (NLU, seguimiento de instrucciones, sumarización), consumo máximo de memoria GPU y velocidad de una época de entrenamiento.
Quién Desafía al Líder
No hay un ganador claro — cada método tiene su propio perfil. DoRA muestra consistentemente una calidad ligeramente mejor en comparación con LoRA con el mismo número de parámetros y memoria. Especialmente notable en tareas de seguimiento de instrucciones y razonamiento. El costo es un tiempo de entrenamiento ligeramente mayor debido a la descomposición adicional de pesos. rsLoRA no mejora la calidad base, pero elimina la inestabilidad en rangos altos. Si necesitas rank=128 o superior — rsLoRA es prácticamente obligatorio, LoRA clásico comienza a "flotar" allí. VeRA es interesante para escenarios con restricciones severas en el tamaño del adaptador — por ejemplo, al servir miles de adaptadores de usuario en un servidor — pero pierde un poco en calidad.
"LoRA sigue siendo la mejor opción predeterminada — pero el
conocimiento de alternativas permite maximizar el rendimiento en condiciones específicas", concluyen los autores del estudio.
GaLore abre la posibilidad de entrenar en GPUs con VRAM pequeña sin cambiar la arquitectura de pesos. Adecuado para pre-entrenamiento o pre-entrenamiento continuado, cuando necesitas trabajar con todos los pesos pero tienes memoria críticamente baja. El entrenamiento es notablemente más lento en este caso.
Qué Significa Esto
El ecosistema PEFT está madurando: en lugar de un método universal para todos los casos, se está formando una matriz de herramientas. Para equipos de producto, esto significa una cosa — antes de elegir un método de ajuste fino, vale la pena gastar una hora en un benchmark comparativo en tu propia tarea, en lugar de usar LoRA por defecto. Las probabilidades de que una alternativa dé una mejora notable precisamente en tu escenario ahora son más altas que nunca.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.
Lo esencial de la IA — una vez por semana
Siete historias que de verdad importaron, elegidas a mano. Sin ruido ni notas de prensa.
¡Listo! Revisa tu correo para la confirmación.