MarkTechPost→ оригинал

MolmoWeb-4B by Ai2: A Web Agent That Sees Websites Like Humans, Without HTML Parsing

Ai2 (Allen Institute for AI) released MolmoWeb-4B — an open-source web agent that controls a browser the same way humans do: by looking at a screenshot and deci

MolmoWeb-4B by Ai2: A Web Agent That Sees Websites Like Humans, Without HTML Parsing
Источник: MarkTechPost. Коллаж: Hamidun News.

Ai2 (Allen Institute for AI) представила MolmoWeb-4B — мультимодального веб-агента с открытым исходным кодом, который управляет браузером исключительно по скриншотам, не анализируя HTML.

Зрение вместо парсинга

Большинство веб-агентов работают с DOM-деревом: читают HTML-код страницы, находят нужные элементы и взаимодействуют с ними программно. Этот подход ломается на динамических сайтах, Canvas-интерфейсах и страницах с тяжёлым JavaScript. MolmoWeb идёт другим путём. Модель получает скриншот текущего состояния браузера и видит страницу как изображение — ровно так же, как видит её человек. Задача агента: понять, что происходит на экране, и решить, что делать дальше. Никакого HTML, никаких DOM-селекторов — только пиксели и мультимодальное рассуждение.

Как устроен пайплайн

Под капотом MolmoWeb-4B — мультимодальная языковая модель с 4 миллиардами параметров и 4-битной квантизацией. Это позволяет запускать её на бесплатном Google Colab с GPU T4 — что особенно важно для разработчиков без дорогого железа. Рабочий цикл агента состоит из пяти шагов: Захват скриншота текущего состояния браузера Передача изображения в MolmoWeb-4B Рассуждение модели о состоянии страницы (chain-of-thought) Предсказание следующего действия: клик, ввод текста, прокрутка * Выполнение действия и захват нового скриншота Ключевая идея промпт-воркфлоу — принудить модель к явному рассуждению перед действием.

Агент не просто «видит кнопку и жмёт» — он формулирует, что именно наблюдает на экране, объясняет, почему следует кликнуть именно туда, и только затем генерирует координаты или команду. Это адаптация chain-of-thought промптинга для визуального восприятия интерфейсов.

Открытый доступ и практика

MolmoWeb выложен под открытой лицензией Ai2, что означает: любой разработчик может развернуть собственного веб-агента без зависимости от платных API OpenAI, Google или Anthropic. Авторы публикуют полный туториал: от установки окружения в Colab и загрузки модели через Transformers до интеграции с Playwright для управления браузером. Агентный цикл собирается с нуля — захват скриншота, передача в модель, разбор ответа, выполнение действия.

Практические преимущества: Запуск без API-ключей внешних сервисов Не требует специальной разметки сайта или браузерных плагинов Совместим с любым сайтом и операционной системой Квантизированная версия (4-bit) работает на Colab T4 * Полностью воспроизводимый пайплайн в открытом доступе Оговорка: пока это исследовательский инструмент. Скорость (один шаг занимает несколько секунд) и точность предсказания действий уступают специализированным агентам с прямым доступом к DOM.

Контекст: гонка браузерных агентов

Браузерные агенты — одно из самых активных направлений AI-разработки в 2025–2026 году. Anthropic Computer Use, Google Project Mariner, OpenAI Operator — крупные игроки активно работают над тем, чтобы AI-модели могли управлять компьютером вместо человека. MolmoWeb от Ai2 занимает свою нишу: полностью открытый, воспроизводимый, работающий на потребительском железе. Это не прямой конкурент корпоративным решениям — это инструмент для исследователей и разработчиков, которые хотят строить агентов самостоятельно.

Что это значит

Открытый браузерный агент на 4B параметров, запускаемый в Colab — это снижение порога входа для задач веб-автоматизации. Команды без корпоративных бюджетов получают рабочий инструмент для экспериментов с агентами, управляемыми зрением, а не разметкой кода.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…