State Space Model (SSM)
State Space Model (SSM) é uma classe de arquiteturas de processamento de sequências derivadas da teoria de controle que representam fluxos de dados através de um vetor de estado latente atualizado por recorrências lineares, permitindo o processamento eficiente de sequências muito longas com complexidade sub-quadrática.
SSMs formalizam a modelagem de sequências como um sistema dinâmico: um vetor de estado oculto h(t) evolui de acordo com uma equação diferencial ou de diferenças linear impulsionada pela entrada x(t), e a saída y(t) é uma projeção linear de h(t). Esta formulação, padrão na engenharia de controle desde os anos 1960, foi adaptada para aprendizado profundo mapeando matrizes estruturadas aprendidas na recorrência, contornando o mecanismo de atenção completamente.
O avanço prático veio com S4 (Structured State Space for Sequences, Gu et al., 2021), que mostrou que a parametrização diagonal-mais-baixo-rank da matriz de estado permite que a recorrência seja computada via convoluções rápidas durante o treinamento — igualando o paralelismo do transformer — enquanto volta a usar recorrência linear barata para inferência autoregressiva. Mamba (2023, Albert Gu e Tri Dao) introduziu state spaces seletivos: gating dependente de entrada de parâmetros de SSM que fornece memória ciente de conteúdo ao modelo, removendo uma limitação fundamental de SSMs puramente lineares.
SSMs importam porque a auto-atenção do transformer escala quadraticamente com o comprimento da sequência, tornando contextos longos caros. SSMs escalam linearmente em computação e memória, tornando-os atraentes para genômica (sequências de milhões de pares de bases), processamento de documentos longos e fluxos contínuos de sensores. Arquiteturas híbridas como Jamba (AI21 Labs, 2024) e Zamba intercalam camadas de SSM e atenção para capturar os pontos fortes de ambas.
A partir de 2026, SSMs saíram de curiosidades de pesquisa para componentes prontos para produção. Mamba-2 (2024) unificou SSMs com atenção linear sob um framework de multiplicação de matrizes estruturadas e demonstrou perplexidade competitiva com transformers em escalas de parâmetros multi-bilhões. Camadas de state-space estão disponíveis em Hugging Face Transformers e estão sendo incorporadas em modelos multimodais e de áudio, embora transformers permaneçam dominantes para LLMs de propósito geral nas maiores escalas.