Mecanismo de Atenção
O mecanismo de atenção é um componente de rede neural que permite que um modelo pese dinamicamente a relevância de diferentes posições de entrada ao calcular cada saída, habilitando processamento sensível ao contexto sobre sequências de comprimento arbitrário.
O mecanismo de atenção é um componente de rede neural que permite que um modelo atribua dinamicamente pesos de importância diferentes a diferentes posições em sua sequência de entrada ao calcular cada elemento de sua saída. Em vez de depender de uma representação de gargalo de tamanho fixo de todo o contexto passado, como as redes neurais recorrentes devem fazer, a atenção permite que o modelo acesse diretamente e se concentre em qualquer parte da entrada em qualquer etapa, independentemente da distância posicional.
Na formulação apresentada por Vaswani et al. em 'Attention Is All You Need' (2017), cada operação de atenção computa três projeções aprendidas da entrada: Queries (Q), Keys (K) e Values (V). O produto escalado de ponto de Q e K produz pontuações de atenção brutas; um softmax as converte em uma distribuição de probabilidade sobre posições de entrada; a saída é uma soma ponderada dos vetores V, concentrando-se nas posições mais relevantes para a consulta atual. Atenção multi-cabeça executa esse cálculo em paralelo em múltiplos subespaços aprendidos e concatena os resultados, permitindo que o modelo atenda simultaneamente a informações de diferentes perspectivas representacionais — estrutura sintática em uma cabeça, relações de correferência em outra, por exemplo. Empilhar muitas dessas camadas de atenção forma a arquitetura Transformer.
A atenção resolveu o problema de dependência de longo alcance que tinha limitado modelos recorrentes: o comprimento do caminho de informação entre quaisquer duas posições é O(1) operações em vez de O(n), tornando direto para o modelo correlacionar tokens milhares de posições de distância. A arquitetura também é totalmente paralelizável na dimensão de sequência durante o treinamento, diferentemente da computação recorrente, o que habilitou as execuções de treinamento em larga escala que produziram modelos de fundação modernos.
Em 2026, cada modelo de linguagem de fronteira maior — GPT-4o (OpenAI), Claude 3.x (Anthropic), Gemini 1.5 e 2.0 (Google), Llama 3 (Meta) e Mistral — é construído em atenção Transformer. Os esforços de engenharia se concentraram na eficiência: Flash Attention (Dao et al., 2022) e seus sucessores reduziram os requisitos de largura de banda de memória por uma ordem de magnitude, habilitando janelas de contexto práticas de 128K–1M tokens. Atenção esparsa, atenção de janela deslizante (usada em Mistral) e arquiteturas híbridas de atenção-SSM como Mamba e Jamba representam direções de pesquisa ativas buscando estender o throughput e comprimento de contexto além do que a auto-atenção densa permite.