Lubomir Gorbatko Apresenta Sessa — Uma Alternativa aos Transformers e Mamba
Habr analisou a arquitetura Sessa — uma nova tentativa de repensar decodificadores para contexto longo. A ideia é combinar a adaptabilidade de attention com…
Processado por IA de Habr AI; editado por Hamidun News
Um detalhamento da arquitetura Sessa foi publicado no Habr — esta é uma tentativa de repensar modelos decoder-only e oferecer uma alternativa ao familiar acoplamento Transformer e Mamba. O autor não promete uma substituição pronta dos líderes do mercado, mas demonstra algo mais fundamental: diferentes decodificadores podem ser descritos através de um fundamento comum e então honestamente comparados por como armazenam e recuperam informações de contexto longo. A lógica do artigo progride do simples para o complexo.
Primeiro, o autor rederiva o Transformer não como um conjunto de blocos familiares, mas como uma evolução da convolução comum. A ideia é que uma janela fixa e coeficientes fixos rapidamente esbarram em limitações: tal misturador vê apenas contexto local e se adapta mal à tarefa. Se os pesos forem tornados dependentes da entrada e então normalizados através de softmax, atenção emerge naturalmente.
Nesta interpretação, o ponto forte do Transformer é comparação flexível do token atual com os anteriores, mas o preço é conhecido: cálculos ficam caros conforme a sequência cresce, e em modo difuso atenção luta para manter um elemento específico distante. O artigo então passa para S4D e Mamba. Aqui o autor vê o problema como uma tarefa de memória: em vez de reler o prefixo inteiro a cada vez, o modelo pode acumular o passado em estado interno.
Esta abordagem resolve alguns problemas de atenção e torna o trabalho com sequências longas mais barato. Mas tem seu próprio limite. Na conta do autor, Mamba funciona bem quando o mecanismo de espaço de estados seletivo consegue "congelar" estado no momento certo e manter o sinal necessário.
Se este modo é mal reconhecido, especialmente em sequências ruidosas ou muito longas, a influência de tokens antigos começa a decair exponencialmente, e a extração precisa de informação necessária se torna menos confiável. Neste contexto, Sessa é apresentada como uma variante híbrida. O autor propõe combinar duas ideias: reter adaptabilidade similar a atenção enquanto simultaneamente adiciona feedback, isto é, feedback controlado através de estados passados.
Dentro da camada, dois ramos aparecem: forward, que coleta informação do prefixo, e feedback, que reutiliza estados já acumulados. A ideia chave é que coeficientes de ambos os ramos dependem do token atual e comprimento da sequência, significando que o modelo obtém um mecanismo de memória mais flexível que o Transformer clássico e acesso mais direto ao histórico que Mamba. Essencialmente, esta é uma tentativa de embutir atenção dentro de um circuito recorrente, em vez de manter estas abordagens em lados opostos da barricada.
O ênfase principal do artigo não é no slogan "nós derrotamos transformers," mas em comparar modos de memória. O autor considera um cenário controlado onde modelos lutam para se concentrar precisamente em um token necessário. Em tal modo, influência de tokens distantes no Transformer decai aproximadamente como o inverso da distância, Mamba decai exponencialmente, e a cauda do Sessa decai mais lentamente, o que teoricamente fornece extração mais estável sobre longa distância.
Em uma configuração multi-camada Sessa, de acordo com o autor, pode até suportar perfis de recuperação sem degradação de distância. Juntamente com o post do Habr, um artigo arXiv e código foram publicados, e a própria pesquisa relata experimentos comparáveis em contexto longo. Porém, o autor demonstra diretamente o limite atual do resultado: agora isto é primariamente teoria e uma hipótese arquitetural, e o próximo passo importante é treinamento em escala de alguns bilhões de parâmetros e validação fora de regimes cuidadosamente controlados.
Em resumo, o material é interessante não apenas para Sessa em si, mas pela maneira de explicação. Reduz Transformer, Mamba e a nova arquitetura a um esquema comum e mostra exatamente onde suas propriedades de memória divergem. Para aqueles acompanhando a corrida do modelo de contexto longo, este é um sinal importante: uma alternativa notável aos transformers pode vir não de uma rejeição completa de atenção, mas de sua combinação com memória recorrente mais expressiva.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.