ИИ-агенты с видением оказались в разы дороже обычного API
Браузер-агенты с видением оказались в разы дороже обычных API. Каждый скриншот экрана, который видит агент, требует обработки через дорогую vision-модель. При м

Браузер-агенты искусственного интеллекта, которые видят экран и имитируют поведение человека, стоят для компаний на порядок дороже, чем обычные текстовые ИИ-модели. Компания Reflex провела анализ затрат и выяснила: цена на агентов с видением в разы превышает затраты на обычные API-запросы.
Почему vision дороже текста
Когда агент обрабатывает только текст, задача относительно простая и дешёвая. API берёт свою долю, модель обрабатывает запрос — и всё. Но когда тот же агент видит скриншот экрана, браузер, веб-форму, включается vision-модель, которая требует значительно больше вычислительных ресурсов и стоит дороже.
Цена за один скриншот может быть выше, чем цена обработки всей текстовой сессии из десятков предложений. Один клик браузер-агента может обойтись компании дороже, чем полный диалог с текстовым чатботом. Это не гипотеза — это наблюдение разработчиков, которые масштабировали браузер-агентов до промышленного использования.
Проблема усугубляется тем, что агент не может «переиспользовать» один скриншот. Каждый раз, когда на экране что-то меняется (а это происходит после каждого действия агента), нужно новое изображение, новый вызов vision-API, новые затраты. Это создаёт ситуацию, когда цены растут экспоненциально с увеличением числа действий.
Как это считать на практике
Когда агент заполняет форму на сайте, цикл работы выглядит так: Сделать скриншот экрана (vision-модель запускается) Понять, что видит агент: кнопки, поля, ошибки, подсказки Решить, какое действие выполнить (это дешевле, логика) Выполнить клик, заполнить поле, нажать кнопку * Снова сделать скриншот — и снова вызов vision-API Каждый цикл с видением — отдельный платёж. При заказе еды через DoorDash агент может сделать 5–10 скриншотов: поиск ресторана, выбор ресторана, просмотр меню, добавление блюд в корзину, оформление платежа. Это 5–10 вызовов дорогой vision-модели за одну задачу.
При масштабировании до тысяч таких операций в день затраты становятся неподъёмными. Компания быстро обнаруживает, что потратила на один день работы агентов больше, чем на месяц обслуживания текстовых моделей. Цифры говорят сами за себя: если vision-запрос стоит в 10 раз дороже текстового, и агент делает 10 скриншотов на задачу, то затраты растут в 100 раз.
Проблема масштабирования
Компании, которые экспериментировали с браузер-агентами, часто обнаруживают скрытые затраты. Что казалось экономнее, чем нанять человека (один агент-бот на месяц дешевле фрилансера), на практике обходится дороже, если нужно обрабатывать десятки тысяч экранов в день.
«Экономика vision-агентов совсем другая, нежели текстовых.
Компании неправильно считают ROI», — говорят разработчики. Это не значит, что браузер-агенты убыточны. Это значит, что их нельзя запускать без чёткого расчёта. Нужна честная калькуляция: сколько стоит один цикл агента, сколько циклов на задачу, сколько задач в день, какой результат. Без этого можно потратить весь бюджет быстрее, чем ожидалось.
Что это значит Развитие браузер-агентов требует новых подходов к ценообразованию.
Компании должны понимать стоимость vision-моделей перед запуском на production, а не после счёта. Иначе экономия на автоматизации обернётся неожиданной тратой. Это временно замедлит внедрение таких агентов, но заставит делать выбор осознанно.