Nous Research presentó Lighthouse Attention para acelerar el entrenamiento de LLM
Nous Research presentó Lighthouse Attention, un nuevo mecanismo de atención jerárquica para acelerar de forma significativa el entrenamiento de grandes modelos

Nous Research publicó Lighthouse Attention — un nuevo método de optimización para entrenar grandes modelos de lenguaje en contextos largos. El mecanismo funciona exclusivamente durante el preentrenamiento y se desactiva completamente después de la conclusión de este proceso, sin afectar la arquitectura y el comportamiento del modelo finalizado en el paso directo.
Cómo Funciona Lighthouse Attention
Lighthouse Attention es un mecanismo de atención jerárquica selectiva que envuelve la atención de producto escalado estándar (scaled dot-product attention) durante el preentrenamiento del modelo. En la práctica, esto significa que durante cada paso a través de una capa de atención, el modelo utiliza un mecanismo selectivo especial en lugar de atención completa a todos los tokens en el contexto.
La diferencia clave con respecto a enfoques anteriores (como NSA e HISA) radica en la agrupación simétrica de todos los componentes del mecanismo de atención. Los métodos anteriores reducían solo claves y valores (K y V), ignorando consultas, mientras que Lighthouse agrupa consultas, claves y valores (Q, K y V) simultáneamente a través de una pirámide de resolución multinivel. Esto garantiza una reducción computacional más equilibrada y eficiente en todos los niveles.
Técnicamente, esto reduce la complejidad computacional de la operación de atención de O(N·S·d) a O(S²·d), donde N es la longitud completa del contexto, S es el tamaño de la subsecuencia compacta seleccionada, y d es la dimensión de la capa oculta del modelo. Después de la selección, FlashAttention estándar funciona en la pequeña subsecuencia densa, lo que ahorra significativamente tanto recursos computacionales como memoria GPU requerida.
Resultados Impresionantes
Nous Research probó Lighthouse Attention en un modelo de 530 millones de parámetros en estilo Llama-3 con un contexto de 98 mil tokens — ya un contexto bastante largo para pruebas. Los resultados mostraron mejoras significativas y consistentes en el rendimiento del entrenamiento:
- Aceleración de 1,40–1,69 veces en entrenamiento end-to-end en comparación con la implementación de base cuDNN SDPA en GPU
- Pérdida de entrenamiento final comparable o menor, garantizando sin pérdida de calidad y precisión del modelo
- Compatibilidad total con infraestructura FlashAttention existente y frameworks estándar como PyTorch
Esto significa que las organizaciones podrán entrenar modelos grandes 40–70 por ciento más rápido sin comprometer la calidad o precisión. Para modelos grandes entrenados en conjuntos de datos masivos, esto se traduce en ahorros concretos de semanas de tiempo computacional en costosos clusters GPU.
Aplicación Práctica y Escalabilidad
La principal ventaja de Lighthouse Attention es su simplicidad de implementación y falta de impacto en el comportamiento del modelo finalizado. El mecanismo se utiliza exclusivamente durante el preentrenamiento y se desactiva automáticamente después de esta etapa crítica. Esto significa que un modelo entrenado con Lighthouse es completamente compatible con aplicaciones, servicios y flujos de trabajo existentes sin cambios en código, infraestructura o despliegue.
La aceleración es particularmente valiosa para organizaciones que entrenan modelos grandes en contextos de decenas y cientos de miles de tokens. Las aplicaciones típicas incluyen: análisis de documentos e informes largos, búsqueda de texto completo en grandes repositorios de conocimiento, escritura y análisis de código en contextos de 100K+ tokens, procesamiento de diálogos con historial profundo de mensajes, trabajo con artículos científicos y patentes.
Cada porcentaje de ahorro de recursos computacionales significa ahorros concretos de electricidad y ahorros financieros significativos en costos de computación en la nube.
Significado para la Investigación e Industria
La optimización de procesos de entrenamiento de transformers sigue siendo un área activa y fructífera de investigación, a pesar de veinte años de inversión en mecanismos fundamentales de arquitectura. Lighthouse Attention demuestra claramente que incluso en arquitecturas de atención bien estudiadas y refinadas, queda espacio para innovación, mejora y optimizaciones inesperadas.
Si métodos similares son adoptados por la comunidad de investigación e implementados ampliamente en frameworks de código abierto populares como PyTorch, HuggingFace Transformers y otros, esto podría reducir significativamente la barrera de entrada para organizaciones, startups y grupos de investigación que desean entrenar sus propios grandes modelos de lenguaje sin la necesidad de enormes recursos computacionales y presupuestos.