Habr AI→ original

Habr AI a expliqué comment la mémoire aide les agents AI à se souvenir des dialogues sans perdre le contexte

Habr AI a publié une explication claire de la mémoire des agents AI — des limites de la fenêtre de contexte aux stockages externes. L’article explique…

Traité par IA depuis Habr AI ; édité par Hamidun News
Habr AI a expliqué comment la mémoire aide les agents AI à se souvenir des dialogues sans perdre le contexte
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Habr AI a publié une analyse détaillée de la structure de la mémoire des agents IA et de pourquoi il est impossible de construire un assistant utile pour plus d'une conversation sans elle. Le matériel couvre la mécanique de base : les limitations de la fenêtre de contexte, trois types de mémoire externe et la façon dont un agent combine tout cela en une seule requête de travail au modèle.

Pourquoi les Fenêtres Ne Suffisent Pas

L'auteur commence par le point le plus important : les LLMs ne se "souviennent" pas des sessions passées d'eux-mêmes. Chaque nouvelle requête que reçoit le modèle vient avec le prompt système, l'historique du chat, les résultats des outils et les documents supplémentaires à nouveau. Tout cela vit à l'intérieur de la fenêtre de contexte—une quantité limitée de texte que le modèle peut traiter en un seul appel. Si du contenu non pertinent s'y glisse, comme un énorme HTML en provenance de l'analyse de page, les détails utiles sont déplacés et la qualité de la réponse baisse.

"Ce qui ne rentre pas n'existe pas."

Même quand la limite n'est pas formellement dépassée, un autre problème surgit—la perte au milieu. Le modèle garde mieux le début et la fin du long contexte en focus, tandis que le milieu commence à "dériver". C'est pourquoi simplement élargir la fenêtre ne résout pas le problème de la mémoire. L'article met en évidence trois techniques de base qui réduisent la surcharge : résumer les anciens messages, une fenêtre glissante uniquement pour les échanges récents et le stockage sélectif des fragments véritablement importants. En pratique, ils sont plus souvent combinés que utilisés séparément.

Trois Types de Mémoire

Au-delà de la fenêtre de contexte se trouve la mémoire externe—les fichiers, les bases de données, les index vectoriels et les graphes de connaissances qui survivent à toute session. L'auteur la divise en trois couches par analogie avec la mémoire humaine. Ce cadre est utile non pour la terminologie en soi, mais parce que chaque couche a sa propre logique de stockage, de recherche et de chargement en contexte. Si tu mélanges tout en un tas, l'agent aura du mal à comprendre ce qu'il faut toujours se souvenir et ce qu'il faut chercher uniquement sur demande.

  • Mémoire épisodique—les faits sur l'utilisateur et les interactions passées : préférences, plaintes, habitudes, actions réussies et échouées de l'agent. Elle est particulièrement nécessaire pour les assistants personnels et le support.
  • Base de connaissances—les documents, la référence produit, l'information de domaine et tout ce qu'on appelle généralement RAG sur les documents. Cette mémoire répond aux faits sur le monde ou l'entreprise, pas sur une personne spécifique.
  • Mémoire procédurale—les règles, les instructions et les scénarios de comportement. Ce peuvent être des portions de prompt système, des fichiers markdown pour différentes tâches ou des ensembles de règles dans les agents de codage.

De cela découle une conclusion pratique importante : la mémoire de l'agent n'est pas une "base de données magique", mais un ensemble de sources de différents types. Il est utile de stocker les épisodes à la fois sous forme brute et sous forme comprimée et consultable. Les connaissances de domaine peuvent être conservées dans une BD vectorielle ou un graphe. Les instructions vivent souvent dans des fichiers texte et sont chargées selon la situation. L'architecture dépend moins de l'outil que du type de mémoire que tu sauvegardes.

Comment la Mémoire Est Activée

Une pensée importante de l'article : la mémoire épisodique ne peut pas simplement être "activée avec une case à cocher". Tu dois la concevoir dans le code. Un pipeline typique fonctionne ainsi : le système sauvegarde le dialogue, puis avec un appel LLM séparé fait un résumé de la conversation et en extrait les faits à long terme sous forme structurée—par exemple, JSON avec le type d'enregistrement, l'importance, l'ID utilisateur et la date.

Après cela, chaque enregistrement devient un embedding et est envoyé à un stockage approprié. Ainsi l'agent ne traîne pas toute la correspondance dans la session suivante, mais retourne uniquement les conclusions pertinentes. Lors d'une nouvelle requête, l'orchestrateur récupère en parallèle les instructions, les connaissances de domaine et les souvenirs de l'utilisateur, puis les colle dans un seul prompt pour le modèle.

En même temps, les différents types de mémoire sont mieux conservés dans différentes collections ou canaux d'accès : les procédures et les faits utilisateur peuvent être chargés presque toujours, tandis que la base de connaissances—uniquement après la recherche sémantique par sens. L'article mentionne séparément Mem0, Letta et Graphiti comme des solutions clés en main qui automatisent une partie de ce processus et cachent la complexité sous le capot.

Ce Que Cela Signifie

Pour les développeurs de systèmes d'agents, ce matériel est utile comme une carte minimale du terrain. Cela nous rappelle qu'un agent de travail est construit non autour d'un LLM puissant, mais autour de la mémoire, de l'orchestration et du chargement soigneux du contexte. Plus tôt ces couches sont ancrées dans l'architecture, moins d'hallucinations, de pertes de détails et d'erreurs répétées dans les scénarios réels.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…