Habr AI→ original

Lubomir Gorbatko Presenta Sessa — Una Alternativa a Transformers y Mamba

Habr analizó la arquitectura Sessa — un nuevo intento de repensar decodificadores para contexto largo. La idea es combinar la adaptabilidad de attention con…

Procesado por IA desde Habr AI; editado por Hamidun News
Lubomir Gorbatko Presenta Sessa — Una Alternativa a Transformers y Mamba
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Un análisis de la arquitectura Sessa ha sido publicado en Habr — este es un intento de replantear modelos decoder-only y ofrecer una alternativa al familiar acoplamiento Transformer y Mamba. El autor no promete un reemplazo listo de los líderes del mercado, sino que demuestra algo más fundamental: diferentes decodificadores pueden describirse a través de una base común y luego compararse honestamente por cómo almacenan y recuperan información del contexto largo. La lógica del artículo progresa de lo simple a lo complejo.

Primero, el autor re-deriva el Transformer no como un conjunto de bloques familiares, sino como una evolución de la convolución ordinaria. La idea es que una ventana fija y coeficientes fijos rápidamente se topan con limitaciones: tal mezclador ve solo contexto local y se adapta mal a la tarea. Si los pesos se hacen dependientes de la entrada y luego se normalizan a través de softmax, la atención emerge naturalmente.

En esta interpretación, la fortaleza del Transformer es la comparación flexible del token actual con los anteriores, pero el precio es conocido: los cálculos se vuelven costosos a medida que crece la longitud de la secuencia, y en modo difuso la atención lucha por mantener un elemento lejano específico. El artículo luego pasa a S4D y Mamba. Aquí el autor ve el problema como una tarea de memoria: en lugar de releer todo el prefijo cada vez, el modelo puede acumular el pasado en estado interno.

Este enfoque resuelve algunos problemas de atención y hace que trabajar con secuencias largas sea más barato. Pero tiene su propio límite. En la exposición del autor, Mamba funciona bien cuando el mecanismo de espacio de estados selectivo puede "congelar" el estado en el momento adecuado y mantener la señal necesaria.

Si este modo se reconoce mal, especialmente en secuencias ruidosas o muy largas, la influencia de tokens antiguos comienza a decaer exponencialmente, y la extracción precisa de información necesaria se vuelve menos confiable. En este contexto, Sessa se presenta como una variante híbrida. El autor propone combinar dos ideas: retener adaptabilidad similar a la atención mientras se agrega simultáneamente retroalimentación, es decir, retroalimentación controlada a través de estados pasados.

Dentro de la capa, aparecen dos ramas: forward, que recopila información del prefijo, y feedback, que reutiliza estados ya acumulados. La idea clave es que los coeficientes de ambas ramas dependen del token actual y la longitud de la secuencia, lo que significa que el modelo obtiene un mecanismo de memoria más flexible que el Transformer clásico y acceso más directo al historial que Mamba. Esencialmente, este es un intento de incrustar atención dentro de un circuito recurrente, en lugar de mantener estos enfoques en lados opuestos de la barricada.

El énfasis principal del artículo no es en el lema "derrotamos transformers," sino en comparar modos de memoria. El autor considera un escenario controlado donde los modelos luchan por enfocarse precisamente en un token necesario. En tal modo, la influencia de tokens distantes en Transformer decae aproximadamente como el inverso de la distancia, Mamba decae exponencialmente, y la cola de Sessa decae más lentamente, lo que teóricamente proporciona una extracción más estable a larga distancia.

En una configuración multicapa de Sessa, según el autor, incluso puede soportar perfiles de recuperación sin degradación de distancia. Junto con el post de Habr, se han publicado un artículo de arXiv y código, y la investigación misma reporta experimentos comparables en contexto largo. Sin embargo, el autor demuestra directamente el límite actual del resultado: ahora esto es principalmente teoría e hipótesis arquitectónica, y el siguiente paso importante es entrenar a escala de varios miles de millones de parámetros y validación fuera de regímenes cuidadosamente controlados.

En resumen, el material es interesante no solo por Sessa en sí, sino por la forma de explicación. Reduce Transformer, Mamba y la nueva arquitectura a un esquema común y muestra exactamente dónde divergen sus propiedades de memoria. Para quienes están siguiendo la carrera del modelo de contexto largo, esta es una señal importante: una alternativa notable a los transformers puede venir no de un rechazo completo de la atención, sino de su combinación con memoria recurrente más expresiva.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…