Microsoft Research lança Webwright — agente de navegador que resolve tarefas web em 60%
Microsoft Research lançou Webwright — um agente terminal para navegadores. Em vez de usar click-trace padrão, ele utiliza scripts Playwright. No benchmark compl

A Microsoft Research apresentou o Webwright — um framework para agentes de navegador que executa tarefas web complexas quase duas vezes mais bem-sucedido do que modelos de linguagem básicos.
Como Webwright Funciona
Este é um agente baseado em terminal que automatiza a interação com o navegador. A característica principal: em vez da abordagem click-trace convencional (em que o sistema registra uma sequência de cliques e coordenadas), Webwright gera e executa scripts Playwright — um framework poderoso para automação programática de navegador.
O framework é construído de forma simples: aproximadamente 1000 linhas de código, três módulos funcionando em um ciclo de agente unificado. Um design minimalista assim parece ingênuo à primeira vista, mas os resultados se mostraram impressionantes. Em vez de tentar gerar cliques ponto-a-ponto, o agente compreende a estrutura DOM e escreve os scripts necessários.
Resultados em Benchmarks
No benchmark Odysseys (que testa a execução de tarefas web longas em um navegador real), Webwright com GPT-5.4 alcançou 60,1%. Isso é duas vezes superior ao baseline de 33,5% do modelo sozinho. No benchmark mais simples Online-Mind2Web, a pontuação é ainda maior — 86,7%. Importante: este é o melhor resultado entre todos os recipes de harness open-source.
A melhoria de duas vezes não foi alcançada através de truques especiais ou soluções hardcoded. É uma consequência direta do design adequado do ciclo de agente e uso eficiente das capacidades do GPT-5.4.
- Benchmark Odysseys: 60,1% (anteriormente 33,5% para o modelo baseline)
- Online-Mind2Web: 86,7% (recorde entre open-source)
- Tamanho do framework: ~1000 linhas de código
- Arquitetura: três módulos em um ciclo unificado
- Modelo: GPT-5.4 (padrão, sem fine-tuning)
Por Que Funciona
Agentes de navegador há muito tempo dependem de sequências click-trace ou requerem modelos de linguagem massivos. Webwright demonstra um terceiro caminho: arquitetura apropriada e scripts Playwright como linguagem intermediária entregam ganhos significativos de qualidade. Além disso, Playwright permite que o agente trabalhe com o DOM diretamente, o que é mais confiável do que depender de visão computacional. Quando um website muda, o script pode se adaptar porque vê a estrutura da página, não apenas pixels.
O Que Isso Significa para o Mercado
Agentes de navegador estão amadurecendo. A Microsoft Research mostrou sua abordagem, e OpenAI (Operator), Anthropic (Computer Use), e outros estão trabalhando em paralelo. O mercado de automação web está apenas começando a se formar: preenchimento de formulários, comparação de preços, pedido de serviços, gerenciamento de assinaturas. Webwright prova que alcançar bons resultados não requer aguardar super-modelos — arquitetura apropriada e módulos simples podem entregar melhorias de qualidade multíplas.