MarkTechPost→ original

Moonshot AI presentó Attention Residuals — una alternativa a las conexiones residuales en transformers

Moonshot AI presentó Attention Residuals, una nueva forma de combinar señales entre capas del transformer no mediante una suma fija, sino mediante attention…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Moonshot AI presentó Attention Residuals — una alternativa a las conexiones residuales en transformers
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Moonshot AI ha lanzado Attention Residuals — una actualización arquitectónica para transformers que cambia uno de los elementos más fundamentales del modelo: las conexiones residuales. En lugar de una suma fija de los resultados de todas las capas anteriores, el equipo propone atención depth-wise, permitiendo que el modelo decida qué representaciones de la profundidad de la red realmente necesita.

Dónde Está el Cuello de Botella

En la mayoría de los LLMs modernos, cada nueva capa no solo procesa la entrada, sino que añade su resultado al estado oculto general. Tal esquema, heredado del enfoque residual y especialmente popular en arquitecturas PreNorm, ayuda a entrenar redes profundas sin colapso de gradiente. Pero tiene un precio: todas las representaciones anteriores se mezclan con peso igual, y su contribución se desenfoca con el tiempo.

A medida que aumenta la profundidad, los estados ocultos crecen aproximadamente linealmente, haciendo cada vez más difícil extraer señales tempranas de forma útil. Moonshot AI llama a esto el problema de agregación depth-wise: el modelo ha aprendido bien a seleccionar tokens importantes por secuencia y encaminar expertos en MoE, pero en toda la profundidad de la red aún se basa en suma fija. Los investigadores hacen una analogía directa con la era RNN: una vez, la secuencia también se comprimía en un único estado, hasta que la atención dio a cada token acceso a todos los pasos anteriores.

Aquí, proponen hacer casi lo mismo, solo en capas en lugar de en tiempo.

Cómo Funciona AttnRes

En Attention Residuals, cada capa recibe no una suma de todos los resultados anteriores, sino una combinación ponderada de representaciones anteriores a través de softmax-attention. El peso depende de la capa misma y de los datos de entrada, por lo que la red puede amplificar señales útiles y suprimir ruido en lugar de heredar todo por igual. En la variante práctica, esto utiliza un mecanismo muy ligero: un vector pseudo-consulta aprendible por capa.

Debido a esto, la idea no parece una reestructuración radical del transformer, sino un reemplazo relativamente compacto del esquema residual familiar. La versión completa de AttnRes requiere almacenar todos los estados anteriores, por lo que para modelos grandes Moonshot AI propone Block AttnRes. Las capas se dividen en bloques, dentro de los cuales permanece la acumulación normal, mientras que la atención se aplica entre representaciones resumidas de bloques.

Según el equipo, una configuración con aproximadamente ocho bloques preserva la mayoría de los ganancias de la versión completa, reduce los requisitos de memoria y comunicación de O(Ld) a O(Nd), y mantiene latencia adicional de inferencia por debajo del 2%.

Lo Que Mostraron las Pruebas

Moonshot AI probó el enfoque no solo en experimentos de scaling-law, sino también en un gran modelo Kimi Linear preentrenado con 48 mil millones de parámetros, de los cuales 3 mil millones están activos, entrenado en 1,4 billones de tokens. La tesis clave es esta: Block AttnRes logra la misma función de pérdida que el modelo base entrenado con un presupuesto computacional 1,25 veces mayor. Es decir, no se trata de ajuste cosmético, sino de escalado potencialmente más favorable.

  • GPQA-Diamond: 36.9 → 44.4
  • HumanEval: 59.1 → 62.2
  • MMLU: 73.5 → 74.6
  • C-Eval: 79.6 → 82.5
  • Latencia de inferencia: menos del 2%

La dinámica de aprendizaje es particularmente importante. En el informe, el equipo señala que AttnRes mitiga el efecto de dilución PreNorm: la amplitud de los estados ocultos no se dispersa con la profundidad, y las normas de gradiente se distribuyen de forma más uniforme en las capas. En la práctica, esto significa entrenamiento más controlable y menor probabilidad de que parte de la profundidad del modelo actúe como lastre caro pero débilmente útil. Las ganancias más notables vinieron en razonamiento multi-paso y generación de código, haciendo el trabajo especialmente interesante para futuros LLMs y sistemas de agentes.

Lo Que Esto Significa

Esto no es un nuevo chatbot ni una característica para el usuario, sino un intento de reescribir uno de los bloques de construcción básicos de los transformers. Si los resultados de Moonshot AI se confirman en otras arquitecturas y en stacks industriales, la carrera por la calidad de LLM será cada vez más impulsada no solo por más datos y GPUs, sino por mecánica interna más inteligente de los modelos en sí.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…