H Company released Holotron-12B — a model for agents with a 2x speed increase
H Company introduced Holotron-12B, a model for computer-use agents based on NVIDIA Nemotron. The developers are focusing on throughput: in a load test on a sing

H Company выпустила Holotron-12B — мультимодальную модель для AI-агентов, которые работают с интерфейсами как пользователь. Новинка сделана на базе открытой NVIDIA Nemotron и заточена не под красивые демо, а под высокую пропускную способность в продакшене.
Для каких задач
Holotron-12B позиционируется как policy model для computer-use агентов: таких систем, которые должны видеть экран, понимать элементы интерфейса, выбирать следующее действие и доводить задачу до результата. В отличие от многих мультимодальных моделей, ориентированных на статичное распознавание картинок или обычный чат по изображению, здесь фокус смещён на длинные сессии, цепочки действий и работу с несколькими скриншотами сразу. Это важный сдвиг: модель проектировали не как универсального ассистента, а как рабочий модуль для агентных систем.
Разработчики из H Company дообучили модель на собственной смеси данных для локализации элементов интерфейса и навигации. Цель — чтобы агент лучше понимал кнопки, поля ввода, структуры страниц и взаимосвязь между визуальным контекстом и действием. Holotron-12B уже доступна на Hugging Face по лицензии NVIDIA Open Model License, так что её можно брать как основу для веб-агентов, внутренних automation-инструментов и контуров онлайн-обучения с подкреплением.
Скорость под нагрузкой
Ключевая ставка в Holotron-12B — не только качество действий, но и эффективность инференса. Модель построена на гибридной архитектуре SSM + attention, унаследованной от Nemotron. По сути это попытка решить главную проблему agentic-нагрузок: длинная история взаимодействий, много изображений высокого разрешения и десятки параллельных запросов быстро упираются в память и пропускную способность GPU. В SSM-подходе состояние хранится компактнее, чем в классическом transformer с большим KV cache, поэтому модель лучше масштабируется в реальных сценариях.
- Тесты проводили на одном NVIDIA H100 через vLLM с оптимизациями SSM версии 0.14.1 В реальной мультимодальной agent-нагрузке модель показала throughput выше чем в 2 раза по сравнению с Holo2-8B На графике generation throughput Holotron-12B набрала 149 токенов в секунду против 69 у Holo2-8B * При concurrency 100 суммарная пропускная способность выросла до 8,9 тысячи токенов в секунду против 5,1 тысячи у Holo2-8B Для команд, которые строят массовые пайплайны генерации данных, разметку или online RL, это не косметическое улучшение. Если модель держит большую пакетную нагрузку на том же железе, себестоимость агентных сценариев падает, а запускать их в проде становится проще. Именно поэтому H Company делает акцент не на максимальном размере модели, а на способности стабильно обслуживать длинные агентные сессии с высокой конкуренцией запросов.
Обучение и бенчмарки Holotron-12B обучали в два этапа.
Базой стала открытая мультимодальная модель NVIDIA Nemotron-Nano-12B-v2-VL-BF16, после чего H Company провела supervised fine-tuning на проприетарной смеси данных по локализации и навигации. Разработчики отдельно подчёркивают акцент на screen understanding, grounding и UI-level interactions — то есть на способности модели не просто описывать экран, а корректно привязывать действие к конкретному элементу интерфейса. Финальный чекпойнт прошёл обучение примерно на 14 миллиардах токенов.
По бенчмаркам результат выглядит сильным. На WebVoyager успех вырос с 35,1% у базовой Nemotron-модели до 80,5% у Holotron-12B, что немного выше 80,2% у Holo2-8B. В задачах GUI localization средняя точность поднялась до 74,2% против 24,6% у базовой версии.
На отдельных тестах разброс тоже заметный: 49% на OSWorld-G, 66,1% на Showdown, 82% на GroundUI-1k, 83,8% на WebClick v1 и 89,9% на Screenspot V2. То есть прирост касается не одного удобного теста, а сразу нескольких сценариев понимания интерфейса.
Что это значит
Рынок AI-агентов постепенно уходит от универсальных VLM к более узким моделям, которые оптимизированы под конкретную работу с интерфейсами и под экономику продакшена. Holotron-12B интересна именно этим: она показывает, что для computer-use систем сегодня важны не только проценты на бенчмарках, но и реальная пропускная способность на одном GPU. Для компаний, которые строят браузерных или desktop-агентов, это уже не вторичная метрика, а базовое условие масштабирования.