Janela de Contexto de LLM: Por Que Redes Neurais Esquecem Partes da Sua Conversa
LLMs não retêm memória entre requisições — a cada nova mensagem, o modelo relê toda a conversa do zero. Essa 'caixa de visibilidade' é chamada de janela de…
Processado por IA de Habr AI; editado por Hamidun News
LLM funciona não como um humano com memória — mas como um especialista que relê toda a correspondência do zero cada vez e só então formula uma resposta. Essa é precisamente a principal característica arquitetônica das redes neurais modernas que frequentemente confunde novos usuários.
Por que o modelo "esquece"
Quando você envia uma nova mensagem para um chat com IA, o modelo não "lembra" da resposta anterior no sentido convencional. Ele não tem memória operacional como um computador, nem memória de longo prazo como um humano. Cada vez que você escreve algo novo, o modelo recebe toda a conversa como entrada — da primeira mensagem até a última — e a reprocessa novamente para formular uma resposta. Essa "caixa" limitada que contém toda a conversa é chamada de janela de contexto. Seu tamanho é medido em tokens — unidades de texto que correspondem aproximadamente a 0,75 palavras cada. Quanto mais longa a conversa, mais tokens ela ocupa — e quanto mais próxima do limite.
O que acontece no limite
A janela de contexto não é infinita, e cada modelo tem seu próprio teto. Aqui está como os limites se parecem para soluções populares:
- GPT-4o — 128.000 tokens (aproximadamente 96.000 palavras)
- Claude 3.5 Sonnet — 200.000 tokens (aproximadamente 150.000 palavras)
- Gemini 1.5 Pro — até 1.000.000 de tokens
- Modelos antigos (GPT-3) — apenas 4.000 tokens
Quando a conversa atinge o limite, as partes antigas literalmente "caem fora": o modelo para de vê-las. Se no início de uma sessão longa você escreveu "meu nome é Andrei" ou forneceu o contexto-chave da tarefa, e depois continuou a conversa por mais algumas horas — no final, a IA provavelmente "não lembrará" desses detalhes. Isso não é um glitch nem falta de atenção. É matemática: a informação simplesmente saiu dos limites da janela.
Como os desenvolvedores combatem isso
Para ocultar essa limitação dos usuários ou pelo menos suavizá-la, os desenvolvedores adicionam várias camadas de lógica em cima dos LLMs base. Para o usuário médio, elas são invisíveis — mas são elas que tornam o trabalho com IA mais confortável.
Sumarização. O sistema comprime automaticamente as partes antigas da conversa, preserva fatos-chave de forma compacta e libera tokens para novas mensagens. Os usuários geralmente não notam isso.
Memória vetorial. Fatos importantes da conversa são armazenados em um banco de dados separado e recuperados conforme necessário. É assim que funcionam os sistemas RAG (Retrieval-Augmented Generation): eles puxam o contexto necessário no momento certo, sem preencher constantemente a janela.
Prompt do sistema. Parte da janela de contexto é reservada antecipadamente — para instruções permanentes, perfil do usuário e fatos da tarefa. Essa parte não é deslocada pelo histórico de diálogo.
Cache. Alguns provedores fazem cache de parte do contexto no lado do servidor, para que os mesmos dados não precisem ser transmitidos a cada solicitação. Isso reduz custos computacionais e acelera ligeiramente a resposta.
"A janela de contexto não é um bug, é uma decisão arquitetônica-chave
dos transformers," explicam os engenheiros de ML, acrescentando: a complexidade quadrática das operações de atenção significa que dobrar a janela quadruplica os custos computacionais.
O que isso significa
Entender a janela de contexto explica muitas "estranhezas" no comportamento da IA: por que o modelo esquece detalhes no final de uma conversa longa, por que vê apenas um fragmento de um documento grande, por que os agentes precisam de um sistema de memória separado. Essa é uma limitação arquitetônica fundamental — e a indústria está aprendendo ativamente a trabalhar com ela: expandindo janelas, adicionando memória externa, explorando novas arquiteturas como Mamba. Por enquanto, a janela de contexto continua sendo um dos principais tradeoffs no mundo dos LLMs.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.