Anthropic a testé un marché où les agents IA négocient et concluent des accords par eux-mêmes
Anthropic a mené une expérience Project Deal: 69 employés ont délégué l'achat et la vente d'articles à des agents IA qui ont négocié entre eux sur Slack sans…
Traité par IA depuis TechCrunch ; édité par Hamidun News
Anthropic a testé un marché où les agents d'IA commercent les uns avec les autres et concluent des accords sans participation humaine à chaque étape, et cela ne ressemble déjà plus à de la science-fiction. Dans l'expérience Project Deal, l'entreprise a créé une place de marché interne où Claude représentait à la fois les vendeurs et les acheteurs, publiait lui-même des annonces, menait des négociations, faisait des contre-propositions et finalisait les accords. Il est important de noter qu'il ne s'agissait pas d'une simulation sur des données de test : les employés ont réellement échangé des choses réelles et de l'argent après la conclusion de l'expérience.
L'expérience a impliqué 69 employés d'Anthropic dans le bureau de San Francisco. Chacun a reçu un budget conditionnel de $100, qui a ensuite été compensé par des cartes-cadeaux en fonction de leurs achats et ventes. Avant le lancement, Claude menait une brève interview : il découvrait ce que la personne était disposée à vendre, ce qu'elle voulait acheter, à quel prix et exactement comment l'agent devrait mener les négociations.
Après cela, un agent distinct avec un prompt système individuel était créé pour chaque participant. Les négociations se sont déroulées dans les canaux Slack, et les gens n'ont pas confirmé chaque accord manuellement : une fois lancés, les agents ont agi indépendamment. Anthropic a lancé simultanément quatre versions du marché.
L'une a été considérée comme « réelle » — ses résultats ont servi de base aux participants pour échanger des biens par la suite ; les trois autres étaient nécessaires pour la comparaison. Dans deux exécutions, tout le monde était représenté par Claude Opus 4.5, tandis que dans deux autres, les participants ont été divisés aléatoirement entre Opus 4.
5 et le modèle plus léger Haiku 4.5. Dans l'exécution « réelle », les agents ont conclu 186 accords sur plus de 500 annonces pour un montant légèrement supérieur à $4.
000. Il ne s'agissait pas d'achats instantanés en un clic : les agents ont dû trouver des intérêts correspondants, contester les prix, répondre aux contre-propositions et mener la conversation à un accord. La conclusion principale s'est avérée être non pas que l'IA s'en est bien tirée en général, mais que la qualité du modèle influençait directement le résultat.
Selon Anthropic, les utilisateurs avec Opus ont conclu en moyenne environ deux accords de plus que les utilisateurs avec Haiku. Lorsque le même article était vendu par Opus, le prix s'avérait en moyenne $3,64 plus élevé, et dans l'évaluation générale, Opus en tant que vendeur apportait environ $2,68 supplémentaires, tandis que comme acheteur, inversement, réduisait le prix d'environ $2,45. Dans des exemples individuels, la différence était encore plus remarquable : le même rubis cultivé en laboratoire qu'un agent Opus a vendu pour $65, Haiku l'a vendu pour seulement $35 ; un vélo pliant cassé s'est vendu pour $65 dans une exécution contre $38 dans une autre.
Fait intéressant, le style des instructions n'a presque pas changé le résultat. Certains employés demandaient à leurs agents d'être doux et amicaux, d'autres de négocier dur et de commencer par des offres réduites. Aucun effet statistiquement significatif n'a été observé : les instructions agressives n'ont pas augmenté la probabilité d'une vente et n'ont pas aidé de manière cohérente à obtenir un meilleur prix.
Cependant, d'autres caractéristiques du commerce des agents sont devenues évidentes. Un agent a acheté à une personne un snowboard presque identique à celui qu'elle possédait déjà, apparemment en interprétant les goûts du propriétaire trop littéralement. Un autre, à la demande d'une employée, a choisi un cadeau « pour Claude lui-même » — un paquet de 19 balles de ping-pong pour $3.
Il y a aussi eu des accords ne concernant pas les choses mais l'expérience : par exemple, les agents ont convenu d'une « rencontre de chiens » gratuite pour le jour. L'observation la plus désagréable pour Anthropic était différente : les personnes représentées par le modèle plus faible n'ont presque pas remarqué qu'elles recevaient des conditions moins favorables. Dans les sondages, les participants ont évalué l'équité des accords approximativement de la même manière, bien qu'objectivement la différence de prix et de résultats existait déjà.
Si cela se transposaît d'une expérience de bureau au commerce réel, un nouveau risque émerge : l'inégalité entre les utilisateurs pourrait surgir non pas de leurs compétences, mais de la qualité de l'agent embauché, et la partie perdante ne réalisera même pas qu'elle est systématiquement surclassée. Par conséquent, Project Deal apparaît non seulement comme une démonstration amusante de Claude, mais comme un avertissement précoce sur la façon dont le marché sera organisé lorsque l'IA commencera à faire du commerce à la place des gens.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.