Habr AI→ original

Por que ChatGPT Esquece: Explicação da Janela de Contexto de Modelos de Linguagem

Após uma hora de conversa com ChatGPT, o modelo de repente esquece o nome do personagem da primeira mensagem e pergunta novamente sobre o que já foi…

Processado por IA de Habr AI; editado por Hamidun News
Por que ChatGPT Esquece: Explicação da Janela de Contexto de Modelos de Linguagem
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Depois de uma hora trabalhando com ChatGPT, o modelo de repente esquece os detalhes das primeiras mensagens — contradiz a si mesmo, pergunta novamente sobre o que já foi acordado. Isso não é um erro: é assim que a janela de contexto funciona, e entender esse mecanismo é importante para qualquer pessoa que usa IA no trabalho.

O que é uma janela de contexto

Um modelo de linguagem não "lembra" de uma conversa no sentido humano. Ele processa o texto como um bloco único — o chamado contexto. Uma janela de contexto é o volume máximo de texto que um modelo pode considerar em uma única solicitação. A unidade de medida é um token: aproximadamente 3–4 caracteres em inglês ou 1–2 palavras em russo.

Modelos modernos funcionam com janelas de diferentes capacidades:

  • GPT-4o — até 128.000 tokens (cerca de 96.000 palavras)
  • Claude 3.7 Sonnet — até 200.000 tokens
  • Gemini 1.5 Pro — até 2.000.000 tokens
  • Llama 3 — de 8.000 a 128.000 tokens dependendo da versão

Até mesmo 128.000 tokens equivalem a cerca de 300 páginas de texto. Parece muito, mas em sessões de trabalho reais — com uma base de código, documentos e diálogos longos — esse limite é atingido mais rápido do que parece.

Por que o modelo "esquece"

Quando uma conversa excede a janela de contexto, o modelo não "esquece" — ele simplesmente não vê as mensagens antigas. Elas estão tecnicamente ausentes dos dados de entrada da solicitação.

A maioria dos serviços resolve esse problema de uma de duas maneiras.

Truncamento: as mensagens mais antigas são removidas do contexto. O modelo continua respondendo, mas sem acesso ao início da conversa. É assim que a maioria das interfaces de chat funciona por padrão.

Sumarização: em vez das primeiras N mensagens, seu breve resumo gerado pelo próprio modelo é inserido no contexto. Os detalhes são perdidos, mas o fio condutor geral é preservado.

Há também uma terceira abordagem — RAG (Retrieval-Augmented Generation): informações importantes são armazenadas em um banco de dados externo e carregadas no contexto apenas quando necessário. É assim que sistemas de IA mais complexos e soluções empresariais funcionam.

Perda no meio: um problema oculto

O problema não é apenas sobre estouro de contexto. A qualidade das respostas se degrada até mesmo antes do contexto se esgotar. Pesquisadores de Stanford e Berkeley em 2023 descreveram o fenômeno de "perda no meio" (lost in the middle): modelos utilizam significativamente melhor informações do início e do final do contexto. Dados que caem no meio são processados pior — o modelo parece "não notar" deles.

"Modelos de linguagem tendem a fazer uso pior de informações relevantes quando elas estão localizadas no meio de um contexto longo," — da pesquisa

Lost in the Middle, 2023.

Conclusão prática: instruções-chave são melhor fornecidas no início ou no final da solicitação, em vez de serem enterradas no meio de um documento longo.

Como trabalhar com essa limitação

Várias estratégias práticas:

  • Divida as tarefas — em vez de uma sessão gigante, divida o trabalho em sessões com resumos intermediários claros
  • Coloque informações importantes no início — o prompt do sistema e as restrições-chave funcionam melhor no início do contexto
  • Use modelos com janelas maiores — para documentos grandes, escolha Gemini 1.5 Pro (2M tokens) ou Claude com 200K
  • Resuma você mesmo — antes de uma nova sessão, peça ao modelo para resumir a anterior e salve esse texto
  • Estime o comprimento com antecedência — 1 página de texto ≈ 500 tokens, 1 arquivo de código ≈ 1.000–5.000 tokens

O que isso significa

Uma janela de contexto não é um detalhe técnico, mas um parâmetro central de qualquer trabalho com modelos de linguagem. Entender essa limitação permite que você não culpe o comportamento "estranho" do modelo em um erro, mas que organize adequadamente as sessões de trabalho. A corrida por contextos maiores continua: os provedores competem para aumentar os limites, mas a questão de engenharia "o que o modelo vê agora" permanecerá fundamental por muito tempo.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…