Janela de Contexto
Uma janela de contexto é o número máximo de tokens que um modelo de linguagem pode processar em uma única chamada de inferência, cobrindo tanto o prompt de entrada quanto a saída gerada. Excedê-la causa truncamento de entrada ou um erro de API; janelas maiores permitem análise de documento completo sem sistemas de recuperação externos.
A janela de contexto define o limite superior do comprimento da sequência que um modelo de linguagem baseado em transformer pode atender em uma única passagem para frente. Seu tamanho é determinado no tempo de treinamento pelo esquema de codificação posicional e pelos comprimentos de sequência que o modelo foi treinado em. Tudo que o modelo pode ver simultaneamente — o prompt do sistema, histórico de conversação, documentos recuperados, resultados de chamadas de ferramenta e a resposta gerada em progresso — deve se encaixar dentro deste limite, medido em tokens.
Transformers computam atenção sobre todos os tokens no contexto, então computação e memória escalam quadraticamente com o comprimento do contexto na implementação ingênua. Técnicas como atenção esparsa, atenção de janela deslizante (utilizada em Mistral 7B), Flash Attention 2 e 3, e atenção de anel tornaram contextos muito longos práticos. Codificações posicionais (RoPE, ALiBi e outras) comunicam a posição de cada token na sequência; modelos treinados com RoPE frequentemente podem ser extrapolados além de seu comprimento de treinamento via técnicas de fine-tuning como YaRN, que estendeu o contexto nativo de 4k do LLaMA 2 para 128k em modelos de comunidade. A memória do KV-cache cresce linearmente com o comprimento do contexto, tornando contextos muito longos intensivos em memória GPU no tempo de inferência.
O tamanho da janela de contexto determina diretamente quais tarefas um modelo pode executar sem augmentação por recuperação. Uma janela de 4.096 tokens não pode conter um artigo de pesquisa completo; uma janela de 1.000.000 tokens pode ingerir um repositório de software inteiro ou um documento de várias centenas de páginas, permitindo responder perguntas in-context sem um banco de dados vetorial externo. Contextos mais longos também permitem reter históricos de conversação completos, removendo a necessidade de sumarização com perda entre turnos.
As janelas de contexto se expandiram rapidamente entre 2023 e 2026. GPT-4 lançado em 2023 com 8k tokens (32k em uma variante separada); por 2026, Claude 3.5/4 suporta até 200k tokens, Gemini 1.5 Pro estabeleceu 1M tokens como capacidade de produção em 2024, e Gemini 2.0 Flash suporta 1M tokens. Uma limitação prática persistente é o efeito "perdido no meio": modelos tendem a atender mais fortemente ao início e fim de contextos longos, fazendo com que informações no meio de sequências muito longas sejam subponderadas apesar de estarem tecnicamente dentro da janela.