Entrenamiento

LoRA (adaptación de bajo rango)

LoRA es una técnica de fine-tuning eficiente en parámetros que añade pares de matrices de bajo rango entrenables a capas de modelos pre-entrenados congeladas, permitiendo la adaptación de modelos grandes con una fracción del recuento de parámetros original.

LoRA (adaptación de bajo rango) es un método para hacer fine-tuning de grandes redes neuronales pre-entrenadas insertando pequeñas descomposiciones de bajo rango entrenables en cada matriz de pesos objetivo mientras se mantienen congelados los pesos del modelo original. Fue introducido por Edward Hu y colegas en Microsoft Research en un artículo de 2021 (publicado en ICLR 2022) y desde entonces se ha convertido en la técnica dominante de fine-tuning eficiente en parámetros (PEFT) para grandes modelos de lenguaje.

Para una matriz de pesos W de forma d × k en una capa transformer, LoRA introduce dos matrices pequeñas B (d × r) y A (r × k), donde el rango r es mucho más pequeño que tanto d como k—típicamente 4, 8, o 16. Durante el paso hacia adelante, el peso efectivo se convierte en W + BA; solo B y A se actualizan durante el entrenamiento mientras W permanece congelado. Porque r es órdenes de magnitud más pequeño que d, los recuentos de parámetros entrenables caen dramáticamente: hacer fine-tuning de un modelo de 7 mil millones de parámetros con LoRA en rango 8 típicamente requiere actualizar menos de 20 millones de parámetros en lugar de los 7 mil millones, reduciendo los requisitos de memoria del optimizador por un factor comparable.

La importancia práctica de LoRA es triple. Primero, hace viable el fine-tuning en hardware que no puede mantener el estado completo del optimizador para un modelo grande. Segundo, múltiples adaptadores LoRA pueden almacenarse e intercambiarse en caliente sobre un único modelo base compartido, permitiendo el servicio eficiente multi-tenant de variantes personalizadas sin duplicar los pesos base en memoria. Tercero, los archivos del adaptador son compactos —a menudo decenas a cientos de megabytes— haciendo el compartir comunitario directo; el Hub de Hugging Face aloja miles de adaptadores LoRA lanzados públicamente para modelos en muchos dominios.

A partir de 2026, LoRA se integra nativamente en la biblioteca PEFT de Hugging Face y es el método de fine-tuning predeterminado en la mayoría de las herramientas LLM de código abierto, incluyendo Axolotl, LLaMA-Factory y Unsloth. Variantes como DoRA (LoRA descompuesto) y rsLoRA (escalado estabilizado de rango) abordan limitaciones de estabilidad y expresividad de la formulación original. Plataformas comerciales de fine-tuning de OpenAI, Together AI y Fireworks AI ofrecen personalización basada en LoRA como un servicio gestionado sin configuración de infraestructura requerida.

Ejemplo

Una empresa adapta Llama 3 8B para responder preguntas de soporte al cliente específicas del dominio entrenando adaptadores LoRA en rango 16 en un dataset de 5.000 tickets resueltos; los parámetros entrenables totales son menos de 10 millones, el entrenamiento se completa en una sola GPU en pocas horas, y el archivo del adaptador resultante es aproximadamente 40 MB.

Términos relacionados

Últimas noticias sobre el tema

← Glosario