MarkTechPost→ original

Microsoft Research lança Webwright — agente de navegador que resolve tarefas web em 60%

Microsoft Research lançou Webwright — um agente terminal para navegadores. Em vez de usar click-trace padrão, ele utiliza scripts Playwright. No benchmark compl

Microsoft Research lança Webwright — agente de navegador que resolve tarefas web em 60%
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A Microsoft Research apresentou o Webwright — um framework para agentes de navegador que executa tarefas web complexas quase duas vezes mais bem-sucedido do que modelos de linguagem básicos.

Como Webwright Funciona

Este é um agente baseado em terminal que automatiza a interação com o navegador. A característica principal: em vez da abordagem click-trace convencional (em que o sistema registra uma sequência de cliques e coordenadas), Webwright gera e executa scripts Playwright — um framework poderoso para automação programática de navegador.

O framework é construído de forma simples: aproximadamente 1000 linhas de código, três módulos funcionando em um ciclo de agente unificado. Um design minimalista assim parece ingênuo à primeira vista, mas os resultados se mostraram impressionantes. Em vez de tentar gerar cliques ponto-a-ponto, o agente compreende a estrutura DOM e escreve os scripts necessários.

Resultados em Benchmarks

No benchmark Odysseys (que testa a execução de tarefas web longas em um navegador real), Webwright com GPT-5.4 alcançou 60,1%. Isso é duas vezes superior ao baseline de 33,5% do modelo sozinho. No benchmark mais simples Online-Mind2Web, a pontuação é ainda maior — 86,7%. Importante: este é o melhor resultado entre todos os recipes de harness open-source.

A melhoria de duas vezes não foi alcançada através de truques especiais ou soluções hardcoded. É uma consequência direta do design adequado do ciclo de agente e uso eficiente das capacidades do GPT-5.4.

  • Benchmark Odysseys: 60,1% (anteriormente 33,5% para o modelo baseline)
  • Online-Mind2Web: 86,7% (recorde entre open-source)
  • Tamanho do framework: ~1000 linhas de código
  • Arquitetura: três módulos em um ciclo unificado
  • Modelo: GPT-5.4 (padrão, sem fine-tuning)

Por Que Funciona

Agentes de navegador há muito tempo dependem de sequências click-trace ou requerem modelos de linguagem massivos. Webwright demonstra um terceiro caminho: arquitetura apropriada e scripts Playwright como linguagem intermediária entregam ganhos significativos de qualidade. Além disso, Playwright permite que o agente trabalhe com o DOM diretamente, o que é mais confiável do que depender de visão computacional. Quando um website muda, o script pode se adaptar porque vê a estrutura da página, não apenas pixels.

O Que Isso Significa para o Mercado

Agentes de navegador estão amadurecendo. A Microsoft Research mostrou sua abordagem, e OpenAI (Operator), Anthropic (Computer Use), e outros estão trabalhando em paralelo. O mercado de automação web está apenas começando a se formar: preenchimento de formulários, comparação de preços, pedido de serviços, gerenciamento de assinaturas. Webwright prova que alcançar bons resultados não requer aguardar super-modelos — arquitetura apropriada e módulos simples podem entregar melhorias de qualidade multíplas.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.
O que você acha?
Carregando comentários…