MolmoWeb-4B من Ai2: وكيل ويب يرى المواقع كما يراها البشر، بدون معالجة HTML
أطلقت Ai2 (معهد ألين للذكاء الاصطناعي) MolmoWeb-4B — وكيل ويب مفتوح المصدر يتحكم في المتصفح بنفس طريقة الإنسان: بمراقبة لقطة شاشة واتخاذ قرار بشأن موضع النقر أو

Ai2 (Allen Institute for AI) представила MolmoWeb-4B — мультимодального веб-агента с открытым исходным кодом, который управляет браузером исключительно по скриншотам, не анализируя HTML.
Зрение вместо парсинга
Большинство веб-агентов работают с DOM-деревом: читают HTML-код страницы, находят нужные элементы и взаимодействуют с ними программно. Этот подход ломается на динамических сайтах, Canvas-интерфейсах и страницах с тяжёлым JavaScript. MolmoWeb идёт другим путём. Модель получает скриншот текущего состояния браузера и видит страницу как изображение — ровно так же, как видит её человек. Задача агента: понять, что происходит на экране, и решить, что делать дальше. Никакого HTML, никаких DOM-селекторов — только пиксели и мультимодальное рассуждение.
Как устроен пайплайн
Под капотом MolmoWeb-4B — мультимодальная языковая модель с 4 миллиардами параметров и 4-битной квантизацией. Это позволяет запускать её на бесплатном Google Colab с GPU T4 — что особенно важно для разработчиков без дорогого железа. Рабочий цикл агента состоит из пяти шагов: Захват скриншота текущего состояния браузера Передача изображения в MolmoWeb-4B Рассуждение модели о состоянии страницы (chain-of-thought) Предсказание следующего действия: клик, ввод текста, прокрутка * Выполнение действия и захват нового скриншота Ключевая идея промпт-воркфлоу — принудить модель к явному рассуждению перед действием.
Агент не просто «видит кнопку и жмёт» — он формулирует, что именно наблюдает на экране, объясняет, почему следует кликнуть именно туда, и только затем генерирует координаты или команду. Это адаптация chain-of-thought промптинга для визуального восприятия интерфейсов.
Открытый доступ и практика
MolmoWeb выложен под открытой лицензией Ai2, что означает: любой разработчик может развернуть собственного веб-агента без зависимости от платных API OpenAI, Google или Anthropic. Авторы публикуют полный туториал: от установки окружения в Colab и загрузки модели через Transformers до интеграции с Playwright для управления браузером. Агентный цикл собирается с нуля — захват скриншота, передача в модель, разбор ответа, выполнение действия.
Практические преимущества: Запуск без API-ключей внешних сервисов Не требует специальной разметки сайта или браузерных плагинов Совместим с любым сайтом и операционной системой Квантизированная версия (4-bit) работает на Colab T4 * Полностью воспроизводимый пайплайн в открытом доступе Оговорка: пока это исследовательский инструмент. Скорость (один шаг занимает несколько секунд) и точность предсказания действий уступают специализированным агентам с прямым доступом к DOM.
Контекст: гонка браузерных агентов
Браузерные агенты — одно из самых активных направлений AI-разработки в 2025–2026 году. Anthropic Computer Use, Google Project Mariner, OpenAI Operator — крупные игроки активно работают над тем, чтобы AI-модели могли управлять компьютером вместо человека. MolmoWeb от Ai2 занимает свою нишу: полностью открытый, воспроизводимый, работающий на потребительском железе. Это не прямой конкурент корпоративным решениям — это инструмент для исследователей и разработчиков, которые хотят строить агентов самостоятельно.
Что это значит
Открытый браузерный агент на 4B параметров, запускаемый в Colab — это снижение порога входа для задач веб-автоматизации. Команды без корпоративных бюджетов получают рабочий инструмент для экспериментов с агентами, управляемыми зрением, а не разметкой кода.