Habr AI→ original

Anthropic, OpenAI et LangChain ont expliqué pourquoi les agents IA ont besoin d'un harness

Les grandes entreprises d'IA rivalisent de moins en moins uniquement sur les modèles et de plus en plus sur la qualité du agent harness. C'est…

Traité par IA depuis Habr AI ; édité par Hamidun News
Anthropic, OpenAI et LangChain ont expliqué pourquoi les agents IA ont besoin d'un harness
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Le principal problème des agents IA modernes ne réside pas dans la qualité du modèle de base, mais dans la couche qui l'entoure : orchestration, mémoire, gestion du contexte et exploitation fiable des outils. Cette couche, de plus en plus appelée agent harness, transforme un LLM sans état d'une démonstration impressionnante en un système capable d'exécuter de manière fiable de longues chaînes d'actions, de surmonter les erreurs et de livrer des résultats. Au stade initial, de nombreuses équipes se limitent à une interface de chat, quelques appels d'outils et un simple cycle ReAct.

Pour un prototype, c'est suffisant : le modèle raisonne, sélectionne un outil, obtient une réponse et continue le dialogue. Mais dans les scénarios de production, les défaillances du système émergent rapidement. L'agent oublie ce qu'il a fait deux ou trois étapes auparavant, répète les mêmes appels, perd les résultats intermédiaires et la fenêtre de contexte se remplit de bruit aléatoire.

Il y a un problème distinct lié aux outils : ils peuvent retourner des formats inattendus, répondre avec des délais ou échouer sans raison claire. S'il n'y a pas une couche de contrôle, de journalisation et de récupération au-dessus de cela, la qualité du système est déterminée non par l'intelligence du modèle, mais par la fragilité du wrapper. C'est pourquoi les grands acteurs comme Anthropic, OpenAI, Perplexity et LangChain construisent non seulement de nouveaux modèles, mais une infrastructure d'agents complète.

Au cœur de cette infrastructure se trouve le cycle d'orchestration : il décide quand le modèle doit réfléchir à nouveau, quand appeler un outil, ce qu'il faut mémoriser, ce qu'il faut retourner à l'utilisateur et quand arrêter. Essentiellement, le harness agit comme un système d'exploitation pour l'agent. Il définit les règles d'exécution, surveille l'état de la session, achemine les actions entre le modèle et les services externes, et réduit la probabilité que l'agent entre dans une boucle infinie ou perde de vue l'objectif de la tâche.

Certains composants de cette approche peuvent déjà être considérés comme obligatoires. Premièrement, la gestion des outils : descriptions d'interfaces, validation des entrées, tentatives, délais d'expiration et gestion des erreurs. Deuxièmement, la mémoire multi-couches : mémoire à court terme pour la tâche actuelle, mémoire de travail pour les résultats intermédiaires et mémoire à long terme pour les préférences, les règles et l'expérience accumulée.

Troisièmement, le contrôle du contexte : sélection des fragments vraiment importants, compression de l'historique, suppression des déchets et transmission au modèle uniquement de ce qui affecte l'étape suivante. Quand ces mécanismes sont absents, même un LLM fort se dégrade à mesure que la longueur de la tâche augmente. Quand ils sont présents, le même modèle commence à fonctionner notablement plus fiable.

Une autre couche importante du harness concerne l'observabilité et l'évaluation de la qualité. Il ne suffit pas au développeur de savoir que la réponse s'est avérée mauvaise ; il doit voir tout le chemin de l'agent : quel prompt a été envoyé au modèle, quel outil a été appelé, quelle réponse a été retournée, où l'erreur s'est produite et pourquoi l'étape suivante a été choisie. Sans cela, il est impossible de déboguer correctement le comportement de l'agent et d'améliorer le système de manière itérative. C'est pourquoi les piles matures ajoutent du traçage, des métriques, l'exécution en sandbox, des points de contrôle manuels et des mécanismes human-in-the-loop pour les actions risquées.

L'effet pratique est révélateur. L'article cite un exemple de LangChain : l'entreprise a amélioré non pas les poids du modèle eux-mêmes, mais l'infrastructure autour, et cela a suffi pour monter dramatiquement sur TerminalBench 2.0, des positions en dehors des trente premiers au cinquième rang. Un autre résultat est encore plus intéressant : dans un projet de recherche, un LLM a été utilisé pour optimiser sa propre infrastructure d'agent, et le système a atteint un taux de réussite de 76,4 %, surpassant les solutions assemblées manuellement. C'est un signal important pour le marché.

La compétition se déplace de la question « quel modèle est le plus intelligent » à « quel environnement d'exécution aide mieux le modèle à penser, se souvenir, planifier et se corriger ». Pour les développeurs et les équipes produit, la conclusion est directe : si vous voulez un agent fonctionnel plutôt qu'un bot jouet, vous devez investir non seulement dans le choix du modèle, mais dans le harness. Les gagnants seront ceux qui organiseront le mieux le cycle d'exécution, la mémoire, le contexte, l'observabilité et la tolérance aux pannes.

Dans un proche avenir, la qualité de ce wrapper, et non un autre saut dans les benchmarks, sera la principale différence entre une belle démonstration et un système auquel vous pouvez faire confiance pour du vrai travail.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…