Habr AI→ original

Ralph loop selon Huntley : pourquoi il ne faut pas confondre les approches d'Anthropic et de Vercel

Ralph loop ne désigne plus une seule chose. Une analyse récente décompose le terme en cinq architectures : des boucles d'Anthropic avec le même prompt à des…

Traité par IA depuis Habr AI ; édité par Hamidun News
Ralph loop selon Huntley : pourquoi il ne faut pas confondre les approches d'Anthropic et de Vercel
Source : Habr AI. Collage: Hamidun News.
◐ Écouter l'article

Le terme Ralph loop est rapidement devenu un parapluie pour des architectures agentives très différentes. Une analyse récente montre que sous un seul nom, on mélange aujourd'hui au moins cinq modèles — d'une simple boucle de redémarrage de modèle à des systèmes où un agent change ses propres instructions et artefacts entre les itérations.

Pourquoi le différend a surgi

L'auteur de l'article commence par une question simple : qu'est-ce qui devrait être considéré comme un vrai Ralph loop. Une recherche rapide dans les fils publics, les README et les blogs n'a pas clarifié le tableau, mais a seulement ajouté de la confusion. Certains appellent Ralph une simple boucle externe qui exécute à nouveau le même prompt, d'autres l'appellent un schéma avec un vérificateur séparé, d'autres encore l'appellent un agent presque auto-évolutif.

En conséquence, sous le même nom, les gens ont commencé à discuter de constructions qui, par leur conception et leurs risques, ne sont proches que de loin. Pour clarifier les choses, l'auteur suggère de ne pas regarder la marque, mais les caractéristiques architecturales. Les questions clés ici sont : où se trouve le vérificateur, qui agit comme l'oracle, où vivent les critères d'achèvement et qu'est-ce qui est exactement transféré entre les tentatives.

Une ligne séparée est le droit à la mutation : un agent ne peut-il que changer le plan de travail, ou est-il autorisé à réécrire les vérifications, les spécifications et même son propre prompt système. C'est précisément ce choix qui affecte la sécurité du schéma entier.

Cinq versions de Ralph

L'article présente une taxonomie fonctionnelle de cinq modèles qui aujourd'hui se cachent le plus souvent sous le nom Ralph. Ils sont en effet similaires au niveau de la façade : partout il y a une boucle, une tentative de combattre la dégradation du contexte, des critères de succès et un type quelconque de mécanisme de vérification. Mais dès que vous regardez plus profondément, il s'avère que dans certains systèmes le modèle lui-même décide quand s'arrêter, tandis que dans d'autres ce droit est pris au-dehors, et entre les itérations ce qui change n'est pas seulement le résultat, mais aussi les artefacts de travail.

  • Ralph de même-prompt à l'esprit Anthropic : le même prompt est exécuté à nouveau et à nouveau jusqu'à ce que le modèle lui-même décide de dire DONE, et la boucle externe ne fait que capter le signal d'arrêt.
  • Ralph de vérificateur externe dans le modèle Vercel : le verifyCompletion externe est déjà séparé de la boucle d'outils interne, mais l'initiative de sortir d'une tentative reste avec le modèle lui-même.
  • Ralph d'évolution d'artefact dans la version originale de Geoffrey Huntley : entre les itérations, non seulement les journaux changent, mais aussi des artefacts utiles comme un plan, des règles de travail et des leçons accumulées.
  • Ralph d'évolution d'artefact avec vérificateur externe : une variante plus stricte où les artefacts évoluent, mais les critères de succès sont fixes, et un validateur externe peut annuler les modifications non autorisées.
  • Agent auto-évolutif : déjà presque une classe séparée dans laquelle plusieurs agents peuvent analyser les défaillances, réécrire le prompt et modifier progressivement le solveur lui-même.

La conclusion la plus importante de cette échelle est que execution loop et evolution loop ne sont pas la même chose. Dans le premier cas, un agent fait simplement de nouvelles tentatives dans le cadre des règles données. Dans le deuxième cas, les règles elles-mêmes, les artefacts ou même la structure de l'agent changent. Par conséquent, le même mot Ralph cache un degré complètement différent d'autonomie, de coût et de danger. En pratique, cela change aussi le niveau de confiance dans le résultat.

Où se trouve le principal risque

La critique principale de l'article se résume à trois choses. Premièrement, quand une boucle externe ne fait que paraître externe, mais le vrai oracle reste à l'intérieur du modèle. Alors l'agent lui-même décide que la tâche est fermée et s'échappe facilement prématurément. Deuxièmement, la dérive des critères : si un agent est autorisé à réécrire les critères d'acceptation, un plan ou la couche de validation, il peut imperceptiblement adapter la tâche à une solution commode pour lui-même. Troisièmement, l'accumulation de contexte poubelle, quand tout le développement se fait dans une seule longue session et la qualité du raisonnement baisse.

"Quel Ralph exactement?"

L'auteur suggère de poser d'abord cette question. Avant d'exécuter une architecture de type Ralph, vous devez déterminer qui déclare le succès, où les critères sont physiquement fixés, ce qui mute exactement entre les itérations et si le système a un retour d'information bon marché vérifiable par la machine. C'est pourquoi l'auteur considère le compromis le plus pratique des schémas où les connaissances et les artefacts de travail peuvent s'accumuler, mais le vérificateur externe et les critères de succès restent séparés et aussi rigides que possible. Sinon, le terme masque des solutions d'ingénierie trop différentes.

Ce que cela signifie

Pour les équipes construisant des systèmes agentifs, l'article est utile comme liste de contrôle contre la confusion. Ralph loop ne peut plus être utilisé comme une étiquette universelle : vous devez d'abord décider si vous construisez une execution loop pour une exécution fiable ou une evolution loop avec mutation contrôlée, et seulement ensuite choisir l'architecture.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…