Machine Learning Mastery→ original

Machine Learning Mastery a publié un guide sur l'ingénierie du contexte pour des agents IA fiables

Machine Learning Mastery a publié un guide pratique sur l'ingénierie du contexte — une discipline qui détermine les données qu'un agent IA voit à chaque…

Traité par IA depuis Machine Learning Mastery ; édité par Hamidun News
Machine Learning Mastery a publié un guide sur l'ingénierie du contexte pour des agents IA fiables
Source : Machine Learning Mastery. Collage: Hamidun News.
◐ Écouter l'article

Machine Learning Mastery a publié un guide pratique sur l'ingénierie du contexte pour les agents IA — une discipline qui détermine quelles données le modèle voit à chaque moment d'opération. La thèse principale de l'article : les problèmes en production dans les systèmes multi-agents sont plus souvent liés non à la qualité du modèle, mais à la façon dont les développeurs gèrent le contexte, l'historique et les jetons.

Pourquoi les agents se cassent

L'auteur suggère de considérer la fenêtre de contexte comme une ressource informatique limitée, et non comme un détail technique qu'on peut ignorer. Les jetons ont non seulement un coût monétaire, car chaque appel de modèle est facturé, mais aussi un coût cognitif : une entrée longue et mal structurée réduit la qualité du raisonnement. Le modèle prête plus d'attention au début et à la fin du contexte, tandis que le milieu perd souvent de son influence, même si formellement tout tient dans la limite.

La fenêtre de contexte n'est pas une contrainte contournable, mais le

paramètre principal de conception d'un système multi-agent.

D'où le scénario d'échec typique : l'agent a simplement tout « collé » — anciennes réponses, sorties d'outils brutes, fragments dupliqués de la récupération et solutions obsolètes. En conséquence, la latence et les coûts augmentent, tandis que le signal utile se noie dans le bruit. L'article compare cela à la RAM : la mémoire rapide est puissante, mais finie. Tout ce dont l'agent n'a pas besoin maintenant doit être stocké en mémoire externe et entrer dans le contexte uniquement sur demande.

Comment assembler le contexte

L'idée architecturale la plus utile du guide est de séparer strictement le contexte statique et dynamique. La partie statique comprend les instructions système, le rôle de l'agent, les règles, les descriptions d'outils et le format de réponse. Ces données changent à peine, elles peuvent donc être mises en cache en tant que préfixe. La partie dynamique est la requête actuelle de l'utilisateur, les résultats frais des outils, les étapes les plus récentes de l'agent et les documents réellement nécessaires à ce stade.

Avant d'assembler le prompt, l'auteur suggère de faire un audit de toutes les couches qui remplissent généralement la fenêtre de contexte :

  • instructions système et exemples few-shot ;
  • historique de dialogue, réponses d'agent et résultats d'appels d'outils ;
  • données externes provenant de bases de connaissances, de fichiers ou de recherche ;
  • état de travail : conclusions intermédiaires, plan, prochaines étapes.

La conclusion pratique est simple : vous n'avez pas besoin de minimiser chaque couche à tout prix ; vous devez seulement supprimer ce qui n'aide pas l'étape actuelle. Un schéma en deux passes semble utile. D'abord, le système élève le cadre permanent : prompt système, règles cachables, résumé durable. Ensuite, il charge la partie variable : état de tâche pertinent, récupération fraîche et une queue d'historique courte et pertinente. Cet assemblage simplifie aussi le débogage, car vous pouvez immédiatement voir si le problème vient de la configuration ou des données de la session actuelle.

Comment contrôler la qualité

Une section séparée de l'article est consacrée à deux domaines où les agents se dégradent le plus rapidement : l'historique de dialogue et la récupération. La simple accumulation de toute la conversation gonfle rapidement le contexte et cimente les erreurs du modèle comme si c'étaient des faits. L'auteur recommande de passer de l'historique brut à un résumé continu ou même à un état de session structuré, où l'intention de l'utilisateur, les décisions prises, les actions complétées et les prochaines étapes sont enregistrées séparément. Cela donne à l'agent une mémoire sans croissance infinie de jetons.

La logique avec la récupération est similaire : chaque lot de données trouvées consomme un budget, donc il ne peut pas être considéré comme gratuit. L'article recommande de filtrer les résultats avant de les insérer dans le prompt, d'utiliser le chunking sémantique au lieu de la coupe de taille fixe, et où nécessaire, de combiner la recherche sémantique avec des filtres par mots-clés ou métadonnées. Pour les systèmes matures, la récupération contrôlée par agent est considérée comme une option plus forte — l'agent lui-même appelle la recherche uniquement au moment où elle est réellement nécessaire, pas automatiquement à chaque coup.

Pour la production, l'auteur suggère de mesurer non seulement la réponse finale, mais aussi la qualité du contexte lui-même. Parmi les métriques utiles figurent l'utilisation du budget de jetons, le taux de compression après résumé, la précision de la récupération et les signes de dérive de contexte, quand l'agent commence à relire des fichiers déjà traités ou s'écarte de la tâche originale.

Une autre technique pratique est l'évaluation basée sur des sondes : après compression ou récupération, le système reçoit des questions de contrôle pour vérifier que les faits nécessaires, les artefacts et la capacité à continuer une tâche multi-étapes à partir du même point sont préservés.

Que cela signifie

Le guide de Machine Learning Mastery capture bien le changement dans le développement d'agents : la qualité d'un agent IA dépend maintenant non seulement du choix du modèle, mais aussi de la façon dont la mémoire, la récupération et le budget de jetons sont organisés de manière disciplinée. Pour les équipes déployant des agents en production, c'est un signal clair de concevoir le contexte comme une couche distincte de l'architecture, et non comme une queue du prompt.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…