Por que ChatGPT Esquece: Explicação da Janela de Contexto de Modelos de Linguagem
Após uma hora de conversa com ChatGPT, o modelo de repente esquece o nome do personagem da primeira mensagem e pergunta novamente sobre o que já foi…
Processado por IA de Habr AI; editado por Hamidun News
Depois de uma hora trabalhando com ChatGPT, o modelo de repente esquece os detalhes das primeiras mensagens — contradiz a si mesmo, pergunta novamente sobre o que já foi acordado. Isso não é um erro: é assim que a janela de contexto funciona, e entender esse mecanismo é importante para qualquer pessoa que usa IA no trabalho.
O que é uma janela de contexto
Um modelo de linguagem não "lembra" de uma conversa no sentido humano. Ele processa o texto como um bloco único — o chamado contexto. Uma janela de contexto é o volume máximo de texto que um modelo pode considerar em uma única solicitação. A unidade de medida é um token: aproximadamente 3–4 caracteres em inglês ou 1–2 palavras em russo.
Modelos modernos funcionam com janelas de diferentes capacidades:
- GPT-4o — até 128.000 tokens (cerca de 96.000 palavras)
- Claude 3.7 Sonnet — até 200.000 tokens
- Gemini 1.5 Pro — até 2.000.000 tokens
- Llama 3 — de 8.000 a 128.000 tokens dependendo da versão
Até mesmo 128.000 tokens equivalem a cerca de 300 páginas de texto. Parece muito, mas em sessões de trabalho reais — com uma base de código, documentos e diálogos longos — esse limite é atingido mais rápido do que parece.
Por que o modelo "esquece"
Quando uma conversa excede a janela de contexto, o modelo não "esquece" — ele simplesmente não vê as mensagens antigas. Elas estão tecnicamente ausentes dos dados de entrada da solicitação.
A maioria dos serviços resolve esse problema de uma de duas maneiras.
Truncamento: as mensagens mais antigas são removidas do contexto. O modelo continua respondendo, mas sem acesso ao início da conversa. É assim que a maioria das interfaces de chat funciona por padrão.
Sumarização: em vez das primeiras N mensagens, seu breve resumo gerado pelo próprio modelo é inserido no contexto. Os detalhes são perdidos, mas o fio condutor geral é preservado.
Há também uma terceira abordagem — RAG (Retrieval-Augmented Generation): informações importantes são armazenadas em um banco de dados externo e carregadas no contexto apenas quando necessário. É assim que sistemas de IA mais complexos e soluções empresariais funcionam.
Perda no meio: um problema oculto
O problema não é apenas sobre estouro de contexto. A qualidade das respostas se degrada até mesmo antes do contexto se esgotar. Pesquisadores de Stanford e Berkeley em 2023 descreveram o fenômeno de "perda no meio" (lost in the middle): modelos utilizam significativamente melhor informações do início e do final do contexto. Dados que caem no meio são processados pior — o modelo parece "não notar" deles.
"Modelos de linguagem tendem a fazer uso pior de informações relevantes quando elas estão localizadas no meio de um contexto longo," — da pesquisa
Lost in the Middle, 2023.
Conclusão prática: instruções-chave são melhor fornecidas no início ou no final da solicitação, em vez de serem enterradas no meio de um documento longo.
Como trabalhar com essa limitação
Várias estratégias práticas:
- Divida as tarefas — em vez de uma sessão gigante, divida o trabalho em sessões com resumos intermediários claros
- Coloque informações importantes no início — o prompt do sistema e as restrições-chave funcionam melhor no início do contexto
- Use modelos com janelas maiores — para documentos grandes, escolha Gemini 1.5 Pro (2M tokens) ou Claude com 200K
- Resuma você mesmo — antes de uma nova sessão, peça ao modelo para resumir a anterior e salve esse texto
- Estime o comprimento com antecedência — 1 página de texto ≈ 500 tokens, 1 arquivo de código ≈ 1.000–5.000 tokens
O que isso significa
Uma janela de contexto não é um detalhe técnico, mas um parâmetro central de qualquer trabalho com modelos de linguagem. Entender essa limitação permite que você não culpe o comportamento "estranho" do modelo em um erro, mas que organize adequadamente as sessões de trabalho. A corrida por contextos maiores continua: os provedores competem para aumentar os limites, mas a questão de engenharia "o que o modelo vê agora" permanecerá fundamental por muito tempo.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.