H Company apresenta Holo3 — um agente de AI para usar o computador com pontuação recorde no OSWorld-Verified
A H Company apresentou o Holo3, um modelo para usar o computador que alcançou 78,85% no OSWorld-Verified. A empresa não aposta apenas no benchmark: o sistema fo

H Company представила Holo3 — новую модель для работы за компьютером, которая, по данным компании, набрала 78,85% в бенчмарке OSWorld-Verified и вышла в лидеры среди систем computer use. Разработчики подают её не как лабораторный прототип, а как основу для корпоративных агентов, способных работать с реальными интерфейсами и многошаговыми задачами.
Рекорд в OSWorld
Главная цифра в анонсе — 78,85% в OSWorld-Verified, одном из ключевых бенчмарков для оценки того, как модели справляются с работой за обычным компьютером. В H Company делают акцент на том, что Holo3 не просто показывает высокий балл, а удерживает его при сравнительно компактной конфигурации: у модели 10 млрд активных параметров при 122 млрд общих. Компания отдельно сравнивает стоимость с более крупными закрытыми системами вроде GPT 5.4 и Opus 4.6 и обещает более дешёвый inference. Публичные веса Holo3-35B-A3B уже выложены на Hugging Face по лицензии Apache 2.0.
Как её обучали
Основа Holo3 — так называемый agentic learning flywheel, непрерывный цикл обучения, который прокачивает две вещи: восприятие интерфейса и принятие решений. Вместо одного набора скриншотов или ручных сценариев команда строит поток задач, на которых модель учится понимать экран, выбирать следующий шаг и не терять контекст в длинных последовательностях действий. Отдельный фокус сделан на обобщении: систему учат не одному продукту, а классу интерфейсов, с которыми она может столкнуться в работе.
- Synthetic Navigation Data — сценарии навигации, собранные из человеческих и сгенерированных инструкций.
- Out-of-Domain Augmentation — программное расширение сценариев, чтобы агент не ломался при неожиданных интерфейсах и отклонениях от шаблона.
- Curated Reinforcement Learning — фильтрация данных и reinforcement learning для максимизации точности на реальных задачах. Идея в том, чтобы обучать не одной конкретной CRM или одному сайту, а более общему навыку работы с интерфейсами. Поэтому H Company делает ставку не только на итоговый балл в бенчмарке, но и на переносимость: если модель понимает логику экранов и умеет принимать решения шаг за шагом, её проще адаптировать к новым системам без полного переобучения. Это особенно важно для корпоративного софта, где интерфейсы часто нестандартны и меняются быстрее, чем датасеты успевают обновляться.
Синтетический офис
Чтобы проверить, работает ли этот подход вне лаборатории, компания построила Synthetic Environment Factory — фабрику синтетических корпоративных сред. Coding agents автоматически собирают сайты и интерфейсы с нуля по заданным спецификациям, после чего для них генерируются проверяемые задачи разной сложности. На этой базе H Company создала отдельный набор H Corporate Benchmarks: 486 реалистичных многошаговых задач в четырёх категориях — e-commerce, бизнес-софт, collaboration-инструменты и multi-app сценарии.
Это уже ближе не к игрушечным демо, а к тому, как сотрудники реально работают внутри компании. Самые сложные задания требуют координации между несколькими системами сразу. Пример из статьи: агент должен вытащить цены на оборудование из PDF, сопоставить их с оставшимся бюджетом каждого сотрудника и затем автоматически разослать персонализированные письма с одобрением или отказом.
Для такой цепочки мало просто распознать текст на экране. Нужны расчёты, работа с документами, память о промежуточных шагах и способность не терять цель по ходу процесса. По словам H Company, именно на таких сценариях Holo3 показывает преимущество над базовыми моделями Qwen3.
5 и лидирует в single-app тестах.
Что это значит
Рынок ИИ-агентов для работы за компьютером всё заметнее смещается от демонстраций к продуктовым сценариям: мало уметь кликать по экрану, нужно ещё справляться с корпоративной рутиной и нестандартными интерфейсами. Holo3 интересна именно этим фокусом. Если заявленные результаты подтвердятся за пределами внутренних тестов, бизнес получит ещё одного реального кандидата на роль офисного ИИ-агента, а не просто очередную модель для таблиц лидеров. Это уже конкуренция не только по качеству модели, но и по готовности к реальной офисной работе.