Агенты

Управление компьютером (Computer Use)

Управление компьютером (Computer Use) — способность AI-модели автономно взаимодействовать с графическим интерфейсом компьютера: перемещать курсор, нажимать кнопки, вводить текст и интерпретировать скриншоты для выполнения произвольных задач.

Computer Use — категория AI-возможностей, при которых модель получает доступ к экрану в виде скриншотов и выполняет низкоуровневые действия: перемещение мыши, клики, ввод с клавиатуры, прокрутка. В отличие от традиционной роботизированной автоматизации (RPA), модель принимает решения о следующем действии на основе визуального понимания текущего состояния экрана, а не заранее запрограммированных координат.

Технически реализация опирается на мультимодальные модели, цикл «наблюдение — рассуждение — действие» и API для управления компьютером через виртуальные машины или специализированные библиотеки. Модель получает скриншот, определяет нужное действие, выдаёт команду (например, click с координатами или type с текстом), после чего получает новый скриншот для продолжения работы.

Практическое значение состоит в автоматизации задач, для которых не существует API: работа с унаследованными корпоративными приложениями, заполнение форм, навигация по сайтам с ограниченным доступом. Computer Use позволяет AI-агентам выполнять компьютерные задачи при минимальных требованиях к инфраструктуре.

Anthropicвыпустила бета-версию Computer Use в октябре 2024 года для Claude 3.5 Sonnet. В 2025–2026 годах аналогичные возможности появились у OpenAI (Operator, CUA) и ряда других поставщиков. Технология активно развивается: надёжность выполнения сложных многоэтапных задач существенно варьируется в зависимости от интерфейса и сценария.

Пример

Бухгалтерский агент получает задачу выгрузить отчёт из устаревшей ERP-системы без API: он открывает браузер, последовательно кликает по меню, вводит параметры запроса и скачивает файл, ориентируясь только по скриншотам экрана.

Связанные термины

← Глоссарий