MarkTechPost→ original

Microsoft Research lance Webwright — un agent navigateur qui résout les tâches web à 60%

Microsoft Research a lancé Webwright — un agent terminal pour navigateurs. Au lieu du click-trace standard, il utilise des scripts Playwright. Sur le benchmark

Microsoft Research lance Webwright — un agent navigateur qui résout les tâches web à 60%
Source : MarkTechPost. Collage: Hamidun News.
◐ Écouter l'article

Microsoft Research a présenté Webwright — un framework pour les agentes de navigateur qui exécute les tâches web complexes presque deux fois plus réussies que les modèles de langage de base.

Comment Fonctionne Webwright

Il s'agit d'un agent basé sur terminal qui automatise l'interaction avec le navigateur. La caractéristique clé : au lieu de l'approche click-trace conventionnelle (où le système enregistre une séquence de clics et de coordonnées), Webwright génère et exécute des scripts Playwright — un framework puissant pour l'automatisation programmatique du navigateur.

Le framework est construit simplement : environ 1000 lignes de code, trois modules fonctionnant dans un cycle d'agent unifié. Un tel design minimaliste semble au premier abord naïf, mais les résultats se sont avérés impressionnants. Au lieu de tenter de générer des clics point par point, l'agent comprend la structure DOM et écrit les scripts nécessaires.

Résultats sur les Benchmarks

Sur le benchmark Odysseys (qui teste l'exécution de longues tâches web dans un navigateur réel), Webwright avec GPT-5.4 a atteint 60,1%. C'est deux fois supérieur à la ligne de base de 33,5% du modèle seul. Sur le benchmark plus simple Online-Mind2Web, le score est encore plus élevé — 86,7%. Important : c'est le meilleur résultat parmi toutes les recettes de harness open-source.

L'amélioration de deux fois n'a pas été obtenue grâce à des astuces spéciales ou des solutions codées en dur. C'est une conséquence directe d'une conception appropriée du cycle d'agent et d'une utilisation efficace des capacités de GPT-5.4.

  • Benchmark Odysseys : 60,1% (auparavant 33,5% pour le modèle de base)
  • Online-Mind2Web : 86,7% (record parmi les projets open-source)
  • Taille du framework : ~1000 lignes de code
  • Architecture : trois modules dans un cycle unifié
  • Modèle : GPT-5.4 (standard, sans fine-tuning)

Pourquoi Cela Fonctionne

Les agentes de navigateur se sont longtemps appuyées sur des séquences click-trace ou ont exigé des modèles de langage massifs. Webwright démontre une troisième voie : une architecture appropriée et des scripts Playwright comme langage intermédiaire offrent des gains de qualité significatifs. De plus, Playwright permet à l'agent de travailler directement avec le DOM, ce qui est plus fiable que de se fier à la vision par ordinateur. Lorsqu'un site web change, le script peut s'adapter car il voit la structure de la page, pas seulement les pixels.

Qu'est-ce que Cela Signifie pour le Marché

Les agentes de navigateur arrivent à maturité. Microsoft Research a montré son approche, et OpenAI (Operator), Anthropic (Computer Use), et d'autres travaillent en parallèle. Le marché de l'automatisation web ne fait que commencer à se former : remplissage de formulaires, comparaison de prix, commande de services, gestion des abonnements. Webwright prouve que pour obtenir de bons résultats, il n'est pas nécessaire d'attendre des super-modèles — une architecture appropriée et des modules simples peuvent fournir des améliorations de qualité multiples.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.
Qu'en pensez-vous ?
Chargement des commentaires…