Habr AI explicou como a memória ajuda agentes de AI a lembrar diálogos sem perder o contexto
Habr AI publicou uma explicação clara sobre a memória de agentes de AI — das limitações da janela de contexto aos armazenamentos externos. O material explica…
Processado por IA de Habr AI; editado por Hamidun News
O Habr AI publicou uma análise detalhada de como a memória dos agentes de IA é estruturada e por que é impossível construir um assistente útil para mais de uma conversa sem ela. O material cobre a mecânica básica: limitações da janela de contexto, três tipos de memória externa e a forma como um agente combina tudo isso em uma única solicitação de trabalho para o modelo.
Por Que Janelas Não São o Suficiente
O autor começa com o ponto mais importante: os LLMs não "lembram" de sessões passadas por conta própria. Cada nova solicitação que o modelo recebe vem com o prompt do sistema, histórico de chat, resultados de ferramentas e documentos adicionais novamente. Tudo isso vive dentro da janela de contexto—uma quantidade limitada de texto que o modelo pode processar em uma única chamada. Se conteúdo irrelevante entra, como HTML enorme de análise de página, detalhes úteis são deslocados e a qualidade da resposta cai.
"O que não cabe não existe."
Mesmo quando o limite não é formalmente excedido, surge outro problema—perda no meio. O modelo mantém o início e o fim do contexto longo em foco melhor, enquanto o meio começa a "desviar". Por isso simplesmente expandir a janela não resolve o problema de memória. O artigo destaca três técnicas básicas que reduzem a sobrecarga: resumir mensagens antigas, uma janela deslizante apenas para trocas recentes e armazenamento seletivo de fragmentos verdadeiramente importantes. Na prática, são mais frequentemente combinadas do que usadas separadamente.
Três Tipos de Memória
Além da janela de contexto fica a memória externa—arquivos, bancos de dados, índices vetoriais e gráficos de conhecimento que sobrevivem a qualquer sessão. O autor a divide em três camadas por analogia com a memória humana. Esse framework é útil não pela terminologia em si, mas porque cada camada tem sua própria lógica de armazenamento, busca e carregamento em contexto. Se você misturar tudo em uma pilha, o agente terá dificuldade em entender o que sempre lembrar e o que buscar apenas sob demanda.
- Memória episódica—fatos sobre o usuário e interações passadas: preferências, reclamações, hábitos, ações bem-sucedidas e malsucedidas do agente. É especialmente necessária para assistentes pessoais e suporte.
- Base de conhecimento—documentos, referência de produto, informação de domínio e tudo que geralmente é chamado de RAG sobre documentos. Essa memória responde por fatos sobre o mundo ou a empresa, não sobre uma pessoa específica.
- Memória procedural—regras, instruções e cenários de comportamento. Podem ser pedaços de prompt do sistema, arquivos markdown para diferentes tarefas ou conjuntos de regras em agentes de codificação.
Disso segue uma conclusão prática importante: a memória do agente não é um "banco de dados mágico", mas um conjunto de fontes de tipos diferentes. Episódios são úteis para armazenar tanto em forma bruta quanto em forma comprimida e pesquisável. Conhecimento de domínio pode ser mantido em um banco de dados vetorial ou gráfico. Instruções frequentemente vivem em arquivos de texto e são carregadas por situação. A arquitetura depende menos da ferramenta do que do tipo de memória que você está salvando.
Como a Memória É Ativada
Um pensamento importante do artigo: memória episódica não pode simplesmente ser "ativada com uma caixa de seleção". Você tem que projetá-la em código. Um pipeline típico funciona assim: o sistema salva o diálogo, então com uma chamada LLM separada faz um resumo da conversa e extrai fatos de longo prazo dela em forma estruturada—por exemplo, JSON com tipo de registro, importância, ID do usuário e data.
Depois disso, cada registro se torna um embedding e é enviado para um armazenamento apropriado. Assim o agente não arrasta toda a correspondência para a próxima sessão, mas retorna apenas conclusões relevantes. Durante uma nova solicitação, o orquestrador em paralelo puxa instruções, conhecimento de domínio e memórias do usuário, então as cola em um único prompt para o modelo.
Ao mesmo tempo, diferentes tipos de memória são melhor mantidos em diferentes coleções ou canais de acesso: procedimentos e fatos do usuário podem carregar quase sempre, enquanto a base de conhecimento—apenas após busca semântica por significado. O artigo menciona separadamente Mem0, Letta e Graphiti como soluções prontas que automatizam parte desse processo e escondem a complexidade sob o capô.
O Que Isso Significa
Para desenvolvedores de sistemas de agentes, este material é útil como um mapa mínimo do terreno. Nos lembra que um agente de trabalho é construído não em torno de um LLM poderoso, mas em torno de memória, orquestração e carregamento cuidadoso de contexto. Quanto antes esses camadas forem estabelecidas na arquitetura, menos alucinações, perdas de detalhes e erros repetidos em cenários reais.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.