Hugging Face Blog→ original

Hugging Face сравнила все альтернативы LoRA: кто побеждает в тонкой настройке LLM

Hugging Face опубликовала масштабное сравнение PEFT-методов тонкой настройки LLM — и спойлер: обогнать LoRA реально, но цена у каждого метода своя. DoRA чуть…

Procesado por IA desde Hugging Face Blog; editado por Hamidun News
Hugging Face сравнила все альтернативы LoRA: кто побеждает в тонкой настройке LLM
Fuente: Hugging Face Blog. Collage: Hamidun News.
◐ Escuchar artículo

LoRA se ha convertido en el estándar de facto para el ajuste fino de grandes modelos de lenguaje: barato, rápido y funciona en casi cualquier lugar sin sorpresas. Hugging Face decidió hacerse una pregunta honesta: ¿podemos hacerlo mejor — y si es así, cuándo exactamente?

Por Qué LoRA Mantiene Sus Posiciones

LoRA (Low-Rank Adaptation) funciona simplemente: en lugar de actualizar todos los miles de millones de pesos de un modelo, el método añade un par de pequeñas matrices de bajo rango a capas clave. El número de parámetros entrenables cae 10–1000 veces. Esto hace que el ajuste fino sea accesible incluso en GPUs de consumidor.

Por eso LoRA se volvió ubicua: se utiliza para entrenamiento adicional de Llama y Mistral, para crear estilos personalizados en Stable Diffusion, para adaptar LLMs corporativos a necesidades específicas del dominio. La biblioteca PEFT de Hugging Face registra cientos de miles de descargas por semana. Pero LoRA tiene debilidades.

Con rangos de matriz altos (rank=64 y superior), el entrenamiento se vuelve inestable. En tareas donde importa la transferencia precisa de conocimiento, el método a veces pierde ante el ajuste fino completo. Y en escenarios con restricciones severas de memoria — por ejemplo, entrenamiento en una única tarjeta gráfica de presupuesto — incluso LoRA puede resultar demasiado consumidora de recursos.

Qué Probó Hugging Face

El equipo tomó la biblioteca PEFT y realizó una comparación sistemática de LoRA con cinco alternativas en tareas downstream reales:

  • DoRA — descompone pesos en dirección y magnitud, los actualiza independientemente, aproximando el comportamiento al ajuste fino completo
  • LoRA+ — idea simple: las matrices A y B se entrenan con diferentes tasas de aprendizaje, la matriz B obtiene una tasa más alta para acelerar la convergencia
  • rsLoRA — coeficiente de normalización que estabiliza los gradientes en valores altos de rango
  • VeRA — matrices congeladas aleatorias, solo se entrenan pequeños vectores de escala; parámetros decenas de veces menos que LoRA
  • GaLore — proyecta los propios gradientes en espacio de bajo rango, ahorrando memoria del optimizador sin cambiar la arquitectura de pesos

Métricas: calidad en tareas de control (NLU, seguimiento de instrucciones, sumarización), consumo máximo de memoria GPU y velocidad de una época de entrenamiento.

Quién Desafía al Líder

No hay un ganador claro — cada método tiene su propio perfil. DoRA muestra consistentemente una calidad ligeramente mejor en comparación con LoRA con el mismo número de parámetros y memoria. Especialmente notable en tareas de seguimiento de instrucciones y razonamiento. El costo es un tiempo de entrenamiento ligeramente mayor debido a la descomposición adicional de pesos. rsLoRA no mejora la calidad base, pero elimina la inestabilidad en rangos altos. Si necesitas rank=128 o superior — rsLoRA es prácticamente obligatorio, LoRA clásico comienza a "flotar" allí. VeRA es interesante para escenarios con restricciones severas en el tamaño del adaptador — por ejemplo, al servir miles de adaptadores de usuario en un servidor — pero pierde un poco en calidad.

"LoRA sigue siendo la mejor opción predeterminada — pero el

conocimiento de alternativas permite maximizar el rendimiento en condiciones específicas", concluyen los autores del estudio.

GaLore abre la posibilidad de entrenar en GPUs con VRAM pequeña sin cambiar la arquitectura de pesos. Adecuado para pre-entrenamiento o pre-entrenamiento continuado, cuando necesitas trabajar con todos los pesos pero tienes memoria críticamente baja. El entrenamiento es notablemente más lento en este caso.

Qué Significa Esto

El ecosistema PEFT está madurando: en lugar de un método universal para todos los casos, se está formando una matriz de herramientas. Para equipos de producto, esto significa una cosa — antes de elegir un método de ajuste fino, vale la pena gastar una hora en un benchmark comparativo en tu propia tarea, en lugar de usar LoRA por defecto. Las probabilidades de que una alternativa dé una mejora notable precisamente en tu escenario ahora son más altas que nunca.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…