MarkTechPost→ original

Moonshot AI apresentou Attention Residuals — uma alternativa às conexões residuais em transformers

A Moonshot AI apresentou Attention Residuals, uma nova forma de combinar sinais entre camadas do transformer não por uma soma fixa, mas por attention ao…

Processado por IA de MarkTechPost; editado por Hamidun News
Moonshot AI apresentou Attention Residuals — uma alternativa às conexões residuais em transformers
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

Moonshot AI lançou Attention Residuals — uma atualização arquitetural para transformers que muda um dos elementos mais fundamentais do modelo: as conexões residuais. Em vez de soma fixa das saídas de todas as camadas anteriores, a equipe propõe atenção depth-wise, permitindo que o modelo decida quais representações da profundidade da rede ele realmente precisa.

Onde Está o Gargalo

Na maioria dos LLMs modernos, cada nova camada não apenas processa entrada, mas adiciona seu resultado ao estado oculto geral. Tal esquema, herdado da abordagem residual e especialmente popular em arquiteturas PreNorm, ajuda a treinar redes profundas sem colapso de gradiente. Mas tem um preço: todas as representações anteriores são misturadas com peso igual, e sua contribuição fica cada vez mais desfocada com o tempo.

Conforme a profundidade aumenta, os estados ocultos crescem aproximadamente linearmente, tornando cada vez mais difícil extrair sinais iniciais de forma útil. Moonshot AI chama isso de problema de agregação depth-wise: o modelo aprendeu bem a selecionar tokens importantes por sequência e rotear especialistas em MoE, mas em toda a profundidade da rede ainda depende de uma soma fixa. Os pesquisadores fazem uma analogia direta com a era RNN: uma vez, a sequência também era comprimida em um único estado, até que a atenção deu a cada token acesso a todos os passos anteriores.

Aqui, propõem fazer quase a mesma coisa, apenas em camadas em vez de tempo.

Como Funciona AttnRes

Em Attention Residuals, cada camada recebe não uma soma de todas as saídas anteriores, mas uma combinação ponderada de representações anteriores através de softmax-attention. O peso depende da própria camada e dos dados de entrada, então a rede pode amplificar sinais úteis e suprimir ruído em vez de herdar tudo igualmente. Na variante prática, isso usa um mecanismo muito leve: um vetor pseudo-consulta aprendível por camada.

Por isso, a ideia não parece uma reestruturação radical do transformer, mas sim uma substituição relativamente compacta do esquema residual familiar. A versão completa de AttnRes exige armazenar todos os estados anteriores, então para modelos grandes Moonshot AI propõe Block AttnRes. As camadas são divididas em blocos, dentro dos quais a acumulação normal permanece, enquanto a atenção é aplicada entre representações resumidas de blocos.

De acordo com a equipe, uma configuração com aproximadamente oito blocos preserva a maioria dos ganhos da versão completa, reduz requisitos de memória e comunicação de O(Ld) para O(Nd), e mantém latência adicional de inferência abaixo de 2%.

O Que os Testes Mostraram

Moonshot AI testou a abordagem não apenas em experimentos de scaling-law, mas também em um grande modelo Kimi Linear pré-treinado com 48 bilhões de parâmetros, dos quais 3 bilhões estão ativos, treinado em 1,4 trilhões de tokens. A tese principal é esta: Block AttnRes alcança a mesma função de perda do que o modelo baseline treinado com um orçamento computacional 1,25 vezes maior. Ou seja, não é ajuste cosmético, mas scaling potencialmente mais favorável.

  • GPQA-Diamond: 36.9 → 44.4
  • HumanEval: 59.1 → 62.2
  • MMLU: 73.5 → 74.6
  • C-Eval: 79.6 → 82.5
  • Latência de inferência: menos de 2%

A dinâmica de aprendizado é particularmente importante. No relatório, a equipe observa que AttnRes mitiga o efeito de diluição PreNorm: a amplitude dos estados ocultos não se dispersa com a profundidade, e as normas de gradiente são distribuídas de forma mais uniforme nas camadas. Na prática, isso significa treinamento mais controlável e menor probabilidade de que parte da profundidade do modelo atue como lastro caro mas fracamente útil. Os ganhos mais notáveis vieram no raciocínio multi-passo e geração de código, tornando o trabalho especialmente interessante para futuros LLMs e sistemas agnósticos.

O Que Isso Significa

Isto não é um novo chatbot ou recurso de usuário, mas uma tentativa de reescrever um dos blocos de construção básicos dos transformers. Se os resultados de Moonshot AI forem confirmados em outras arquiteturas e em stacks industriais, a corrida pela qualidade de LLM será cada vez mais impulsionada não apenas por mais dados e GPUs, mas por mecânica interna mais inteligente dos modelos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…