3DNews AI→ оригинал

ИИ-агенты с видением оказались в разы дороже обычного API

Браузер-агенты с видением оказались в разы дороже обычных API. Каждый скриншот экрана, который видит агент, требует обработки через дорогую vision-модель. При м

ИИ-агенты с видением оказались в разы дороже обычного API
Источник: 3DNews AI. Коллаж: Hamidun News.
◐ Слушать статью

Браузер-агенты искусственного интеллекта, которые видят экран и имитируют поведение человека, стоят для компаний на порядок дороже, чем обычные текстовые ИИ-модели. Компания Reflex провела анализ затрат и выяснила: цена на агентов с видением в разы превышает затраты на обычные API-запросы.

Почему vision дороже текста

Когда агент обрабатывает только текст, задача относительно простая и дешёвая. API берёт свою долю, модель обрабатывает запрос — и всё. Но когда тот же агент видит скриншот экрана, браузер, веб-форму, включается vision-модель, которая требует значительно больше вычислительных ресурсов и стоит дороже.

Цена за один скриншот может быть выше, чем цена обработки всей текстовой сессии из десятков предложений. Один клик браузер-агента может обойтись компании дороже, чем полный диалог с текстовым чатботом. Это не гипотеза — это наблюдение разработчиков, которые масштабировали браузер-агентов до промышленного использования.

Проблема усугубляется тем, что агент не может «переиспользовать» один скриншот. Каждый раз, когда на экране что-то меняется (а это происходит после каждого действия агента), нужно новое изображение, новый вызов vision-API, новые затраты. Это создаёт ситуацию, когда цены растут экспоненциально с увеличением числа действий.

Как это считать на практике

Когда агент заполняет форму на сайте, цикл работы выглядит так: Сделать скриншот экрана (vision-модель запускается) Понять, что видит агент: кнопки, поля, ошибки, подсказки Решить, какое действие выполнить (это дешевле, логика) Выполнить клик, заполнить поле, нажать кнопку * Снова сделать скриншот — и снова вызов vision-API Каждый цикл с видением — отдельный платёж. При заказе еды через DoorDash агент может сделать 5–10 скриншотов: поиск ресторана, выбор ресторана, просмотр меню, добавление блюд в корзину, оформление платежа. Это 5–10 вызовов дорогой vision-модели за одну задачу.

При масштабировании до тысяч таких операций в день затраты становятся неподъёмными. Компания быстро обнаруживает, что потратила на один день работы агентов больше, чем на месяц обслуживания текстовых моделей. Цифры говорят сами за себя: если vision-запрос стоит в 10 раз дороже текстового, и агент делает 10 скриншотов на задачу, то затраты растут в 100 раз.

Проблема масштабирования

Компании, которые экспериментировали с браузер-агентами, часто обнаруживают скрытые затраты. Что казалось экономнее, чем нанять человека (один агент-бот на месяц дешевле фрилансера), на практике обходится дороже, если нужно обрабатывать десятки тысяч экранов в день.

«Экономика vision-агентов совсем другая, нежели текстовых.

Компании неправильно считают ROI», — говорят разработчики. Это не значит, что браузер-агенты убыточны. Это значит, что их нельзя запускать без чёткого расчёта. Нужна честная калькуляция: сколько стоит один цикл агента, сколько циклов на задачу, сколько задач в день, какой результат. Без этого можно потратить весь бюджет быстрее, чем ожидалось.

Что это значит Развитие браузер-агентов требует новых подходов к ценообразованию.

Компании должны понимать стоимость vision-моделей перед запуском на production, а не после счёта. Иначе экономия на автоматизации обернётся неожиданной тратой. Это временно замедлит внедрение таких агентов, но заставит делать выбор осознанно.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…