Modelos

Modelo de Espacio de Estados (SSM)

Un Modelo de Espacio de Estados (SSM) es una clase de arquitecturas de procesamiento de secuencias derivadas de la teoría de control que representan flujos de datos a través de un vector de estado latente actualizado mediante recurrencias lineales, permitiendo el procesamiento eficiente de secuencias muy largas con complejidad sub-cuadrática.

Los SSM formalizan el modelado de secuencias como un sistema dinámico: un vector de estado oculto h(t) evoluciona según una ecuación diferencial o de diferencias lineal impulsada por la entrada x(t), y la salida y(t) es una proyección lineal de h(t). Esta formulación, estándar en ingeniería de control desde los años 60, fue adaptada para deep learning mapeando matrices estructuradas aprendidas en la recurrencia, evitando completamente el mecanismo de attention.

El avance práctico llegó con S4 (Structured State Space for Sequences, Gu et al., 2021), que mostró que la parametrización diagonal-más-rango-bajo de la matriz de estado permite que la recurrencia se compute mediante convoluciones rápidas durante el entrenamiento —igualando el paralelismo del transformer— mientras revierte a recurrencia lineal barata para inferencia autorregresiva. Mamba (2023, Albert Gu y Tri Dao) introdujo selective state spaces: gating dependiente de la entrada de parámetros SSM que otorga al modelo memoria consciente del contenido, eliminando una limitación clave de los SSM puramente lineales.

Los SSM importan porque el self-attention del transformer escala cuadráticamente con la longitud de la secuencia, haciendo los contextos largos costosos. Los SSM escalan linealmente tanto en cómputo como en memoria, haciendo que sean atractivos para genómica (secuencias de millones de pares de bases), procesamiento de documentos largos, y flujos de sensores continuos. Arquitecturas híbridas como Jamba (AI21 Labs, 2024) y Zamba intercalan capas SSM y attention para capturar las fortalezas de ambas.

A partir de 2026, los SSM han pasado de ser curiosidades de investigación a componentes listos para producción. Mamba-2 (2024) unificó SSM con linear attention bajo un framework de multiplicación de matrices estructurada y demostró perplexidad competitiva con transformers en escalas de parámetros de miles de millones. Las capas de espacio de estado están disponibles en Hugging Face Transformers y se están incorporando en modelos multimodales y de audio, aunque los transformers siguen siendo dominantes para LLM de propósito general en las escalas más grandes.

Ejemplo

Una empresa de genómica utiliza un modelo basado en Mamba para procesar secuencias de cromosomas completos —millones de nucleótidos de largo— para predecir patrones de expresión génica, una tarea donde el attention del transformer sería computacionalmente prohibitivo.

Términos relacionados

Transformer Ventana de Contexto Red Neuronal Recurrente (RNN)

← Glosario