Microsoft Research выпустила Webwright — агента для браузера, который решает web-задачи на 60%
Microsoft Research выпустила Webwright — терминальный агент для браузера. Вместо обычного click-trace он использует Playwright-скрипты. На сложном бенчмарке Ody

Microsoft Research представила Webwright — фреймворк для браузер-агентов, который выполняет сложные web-задачи почти в два раза успешнее, чем базовые языковые модели.
Как работает
Webwright Это агент, работающий в терминале, который автоматизирует взаимодействие с браузером. Ключевая особенность: вместо привычного click-trace подхода (когда система сохраняет последовательность кликов и координат) Webwright генерирует и исполняет Playwright-скрипты — мощный фреймворк для программной автоматизации браузера. Фреймворк построен просто: примерно 1000 строк кода, три модуля, работающих в едином агентном цикле. Такой минималистичный дизайн сначала кажется наивным, но результаты оказались впечатляющими. Вместо того чтобы пытаться генерировать клики точка-в-точку, агент разбирается со структурой DOM и пишет нужные скрипты.
Результаты на бенчмарках
На бенчмарке Odysseys (проверяет выполнение длинных web-задач в реальном браузере) Webwright с GPT-5.4 достиг 60.1%. Это вдвое выше, чем базовые 33.5% самой модели. На более простом бенчмарке Online-Mind2Web показатель ещё выше — 86.7%. Важно: это лучший результат среди всех open-source harness рецептов. Улучшение в два раза достигнуто не за счёт специальных хитростей или хардкодирования решений. Это чистое следствие правильного дизайна агентного цикла и эффективного использования возможностей GPT-5.4.
- Odysseys benchmark: 60.1% (было 33.5% у базовой модели) Online-Mind2Web: 86.7% (рекорд среди open-source) Размер фреймворка: ~1000 строк кода Архитектура: три модуля в едином цикле Модель: GPT-5.4 (стандартная, без файн-тюнинга) ## Почему это работает Браузер-агенты долгое время полагались на click-trace последовательности или требовали огромные языковые модели. Webwright показывает третий путь: правильная архитектура и Playwright-скрипты как промежуточный язык дают большой прирост качества. Кроме того, Playwright позволяет агенту работать с DOM напрямую, что надёжнее, чем полагаться на компьютерное зрение. Когда сайт меняется, скрипт может адаптироваться, потому что видит структуру страницы, а не только пиксели.
Что это значит для рынка Браузер-агенты подрастают.
Microsoft Research показала свой подход, параллельно работают OpenAI (Operator), Anthropic (Computer Use), и другие. Рынок web-автоматизации только начинает формироваться: заполнение форм, сравнение цен, заказ услуг, управление подписками. Webwright доказывает, что для достижения хорошего результата не нужно ждать супер-модели — правильная архитектура и простые модули могут дать многократный прирост качества.