MarkTechPost→ original

Microsoft Research lanza Webwright — agente navegador que resuelve tareas web al 60%

Microsoft Research lanzó Webwright — un agente terminal para navegadores. En lugar del click-trace estándar, utiliza scripts de Playwright. En el benchmark comp

Microsoft Research lanza Webwright — agente navegador que resuelve tareas web al 60%
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Microsoft Research presentó Webwright — un framework para agentes de navegador que ejecuta tareas web complejas casi el doble de exitosamente que los modelos de lenguaje base.

Cómo Funciona Webwright

Este es un agente basado en terminal que automatiza la interacción con el navegador. La característica clave: en lugar del enfoque click-trace convencional (donde el sistema registra una secuencia de clics y coordenadas), Webwright genera y ejecuta scripts Playwright — un potente framework para la automatización programática del navegador.

El framework se construye de forma simple: aproximadamente 1000 líneas de código, tres módulos que funcionan en un ciclo de agente unificado. Tal diseño minimalista parece ingenuo al principio, pero los resultados resultaron ser impresionantes. En lugar de intentar generar clics punto por punto, el agente entiende la estructura DOM y escribe los scripts necesarios.

Resultados en Benchmarks

En el benchmark Odysseys (que prueba la ejecución de tareas web largas en un navegador real), Webwright con GPT-5.4 logró 60,1%. Esto es el doble que la línea base de 33,5% del modelo base. En el benchmark más simple Online-Mind2Web, la puntuación es aún más alta — 86,7%. Importante: este es el mejor resultado entre todas las recetas de harness open-source.

La mejora de dos veces no se logró mediante trucos especiales o soluciones hardcodeadas. Es una consecuencia directa del diseño adecuado del ciclo de agente y el uso eficiente de las capacidades de GPT-5.4.

  • Benchmark Odysseys: 60,1% (fue 33,5% para el modelo base)
  • Online-Mind2Web: 86,7% (récord entre open-source)
  • Tamaño del framework: ~1000 líneas de código
  • Arquitectura: tres módulos en un ciclo unificado
  • Modelo: GPT-5.4 (estándar, sin fine-tuning)

Por Qué Funciona Esto

Los agentes de navegador han confiado durante mucho tiempo en secuencias click-trace o requerían modelos de lenguaje enormes. Webwright demuestra un tercer camino: la arquitectura adecuada y los scripts Playwright como lenguaje intermedio proporcionan ganancias significativas de calidad. Además, Playwright permite que el agente trabaje directamente con el DOM, lo que es más confiable que confiar en visión por computadora. Cuando un sitio web cambia, el script puede adaptarse porque ve la estructura de la página, no solo píxeles.

Qué Significa Esto para el Mercado

Los agentes de navegador están madurando. Microsoft Research mostró su enfoque, y OpenAI (Operator), Anthropic (Computer Use), y otros están trabajando en paralelo. El mercado de automatización web apenas está comenzando a formarse: rellenado de formularios, comparación de precios, pedidos de servicios, administración de suscripciones. Webwright demuestra que para lograr buenos resultados no es necesario esperar a super-modelos — una arquitectura adecuada y módulos simples pueden proporcionar mejoras de calidad multifacéticas.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.
¿Qué te parece?
Cargando comentarios…