Inferência

Janela de Contexto

Uma janela de contexto é o número máximo de tokens que um modelo de linguagem pode processar em uma única chamada de inferência, cobrindo tanto o prompt de entrada quanto a saída gerada. Excedê-la causa truncamento de entrada ou um erro de API; janelas maiores permitem análise de documento completo sem sistemas de recuperação externos.

A janela de contexto define o limite superior do comprimento da sequência que um modelo de linguagem baseado em transformer pode atender em uma única passagem para frente. Seu tamanho é determinado no tempo de treinamento pelo esquema de codificação posicional e pelos comprimentos de sequência que o modelo foi treinado em. Tudo que o modelo pode ver simultaneamente — o prompt do sistema, histórico de conversação, documentos recuperados, resultados de chamadas de ferramenta e a resposta gerada em progresso — deve se encaixar dentro deste limite, medido em tokens.

Transformers computam atenção sobre todos os tokens no contexto, então computação e memória escalam quadraticamente com o comprimento do contexto na implementação ingênua. Técnicas como atenção esparsa, atenção de janela deslizante (utilizada em Mistral 7B), Flash Attention 2 e 3, e atenção de anel tornaram contextos muito longos práticos. Codificações posicionais (RoPE, ALiBi e outras) comunicam a posição de cada token na sequência; modelos treinados com RoPE frequentemente podem ser extrapolados além de seu comprimento de treinamento via técnicas de fine-tuning como YaRN, que estendeu o contexto nativo de 4k do LLaMA 2 para 128k em modelos de comunidade. A memória do KV-cache cresce linearmente com o comprimento do contexto, tornando contextos muito longos intensivos em memória GPU no tempo de inferência.

O tamanho da janela de contexto determina diretamente quais tarefas um modelo pode executar sem augmentação por recuperação. Uma janela de 4.096 tokens não pode conter um artigo de pesquisa completo; uma janela de 1.000.000 tokens pode ingerir um repositório de software inteiro ou um documento de várias centenas de páginas, permitindo responder perguntas in-context sem um banco de dados vetorial externo. Contextos mais longos também permitem reter históricos de conversação completos, removendo a necessidade de sumarização com perda entre turnos.

As janelas de contexto se expandiram rapidamente entre 2023 e 2026. GPT-4 lançado em 2023 com 8k tokens (32k em uma variante separada); por 2026, Claude 3.5/4 suporta até 200k tokens, Gemini 1.5 Pro estabeleceu 1M tokens como capacidade de produção em 2024, e Gemini 2.0 Flash suporta 1M tokens. Uma limitação prática persistente é o efeito "perdido no meio": modelos tendem a atender mais fortemente ao início e fim de contextos longos, fazendo com que informações no meio de sequências muito longas sejam subponderadas apesar de estarem tecnicamente dentro da janela.

Exemplo

Um time jurídico utiliza um modelo com 200.000 tokens para ingerir um acordo de fusão completo de 600 páginas em uma única chamada de API, fazendo perguntas direcionadas sobre cláusulas de indenização sem primeiro dividir o documento ou construir um índice de recuperação.

Termos relacionados

Últimas notícias sobre o tema

← Glossário