Habr AI→ original

Lubomir Gorbatko Apresenta Sessa — Uma Alternativa aos Transformers e Mamba

Habr analisou a arquitetura Sessa — uma nova tentativa de repensar decodificadores para contexto longo. A ideia é combinar a adaptabilidade de attention com…

Processado por IA de Habr AI; editado por Hamidun News
Lubomir Gorbatko Apresenta Sessa — Uma Alternativa aos Transformers e Mamba
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Um detalhamento da arquitetura Sessa foi publicado no Habr — esta é uma tentativa de repensar modelos decoder-only e oferecer uma alternativa ao familiar acoplamento Transformer e Mamba. O autor não promete uma substituição pronta dos líderes do mercado, mas demonstra algo mais fundamental: diferentes decodificadores podem ser descritos através de um fundamento comum e então honestamente comparados por como armazenam e recuperam informações de contexto longo. A lógica do artigo progride do simples para o complexo.

Primeiro, o autor rederiva o Transformer não como um conjunto de blocos familiares, mas como uma evolução da convolução comum. A ideia é que uma janela fixa e coeficientes fixos rapidamente esbarram em limitações: tal misturador vê apenas contexto local e se adapta mal à tarefa. Se os pesos forem tornados dependentes da entrada e então normalizados através de softmax, atenção emerge naturalmente.

Nesta interpretação, o ponto forte do Transformer é comparação flexível do token atual com os anteriores, mas o preço é conhecido: cálculos ficam caros conforme a sequência cresce, e em modo difuso atenção luta para manter um elemento específico distante. O artigo então passa para S4D e Mamba. Aqui o autor vê o problema como uma tarefa de memória: em vez de reler o prefixo inteiro a cada vez, o modelo pode acumular o passado em estado interno.

Esta abordagem resolve alguns problemas de atenção e torna o trabalho com sequências longas mais barato. Mas tem seu próprio limite. Na conta do autor, Mamba funciona bem quando o mecanismo de espaço de estados seletivo consegue "congelar" estado no momento certo e manter o sinal necessário.

Se este modo é mal reconhecido, especialmente em sequências ruidosas ou muito longas, a influência de tokens antigos começa a decair exponencialmente, e a extração precisa de informação necessária se torna menos confiável. Neste contexto, Sessa é apresentada como uma variante híbrida. O autor propõe combinar duas ideias: reter adaptabilidade similar a atenção enquanto simultaneamente adiciona feedback, isto é, feedback controlado através de estados passados.

Dentro da camada, dois ramos aparecem: forward, que coleta informação do prefixo, e feedback, que reutiliza estados já acumulados. A ideia chave é que coeficientes de ambos os ramos dependem do token atual e comprimento da sequência, significando que o modelo obtém um mecanismo de memória mais flexível que o Transformer clássico e acesso mais direto ao histórico que Mamba. Essencialmente, esta é uma tentativa de embutir atenção dentro de um circuito recorrente, em vez de manter estas abordagens em lados opostos da barricada.

O ênfase principal do artigo não é no slogan "nós derrotamos transformers," mas em comparar modos de memória. O autor considera um cenário controlado onde modelos lutam para se concentrar precisamente em um token necessário. Em tal modo, influência de tokens distantes no Transformer decai aproximadamente como o inverso da distância, Mamba decai exponencialmente, e a cauda do Sessa decai mais lentamente, o que teoricamente fornece extração mais estável sobre longa distância.

Em uma configuração multi-camada Sessa, de acordo com o autor, pode até suportar perfis de recuperação sem degradação de distância. Juntamente com o post do Habr, um artigo arXiv e código foram publicados, e a própria pesquisa relata experimentos comparáveis em contexto longo. Porém, o autor demonstra diretamente o limite atual do resultado: agora isto é primariamente teoria e uma hipótese arquitetural, e o próximo passo importante é treinamento em escala de alguns bilhões de parâmetros e validação fora de regimes cuidadosamente controlados.

Em resumo, o material é interessante não apenas para Sessa em si, mas pela maneira de explicação. Reduz Transformer, Mamba e a nova arquitetura a um esquema comum e mostra exatamente onde suas propriedades de memória divergem. Para aqueles acompanhando a corrida do modelo de contexto longo, este é um sinal importante: uma alternativa notável aos transformers pode vir não de uma rejeição completa de atenção, mas de sua combinação com memória recorrente mais expressiva.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…