H Company lançou Holotron-12B — um modelo para agentes com aumento de velocidade de 2x
A H Company apresentou Holotron-12B, um modelo para agentes de computer-use baseado em NVIDIA Nemotron. Os desenvolvedores apostam em throughput: em um teste…
Processado por IA de Hugging Face Blog; editado por Hamidun News
A H Company lançou o Holotron-12B — um modelo multimodal para agentes de AI que interagem com interfaces como um usuário humano. A novidade é construída sobre a NVIDIA Nemotron de código aberto e foi desenvolvida não para demonstrações impressionantes, mas para alto throughput em produção.
Para quais tarefas
O Holotron-12B se posiciona como um policy model para agentes de computer-use: sistemas que precisam ver a tela, entender os elementos da interface, escolher a próxima ação e concluir tarefas do começo ao fim. Ao contrário de muitos modelos multimodais focados em reconhecimento estático de imagens ou chat comum baseado em imagens, o foco aqui é deslocado para sessões longas, cadeias de ações e o trabalho com múltiplas capturas de tela simultaneamente. Essa é uma mudança importante: o modelo foi projetado não como um assistente de propósito geral, mas como um módulo de trabalho para sistemas agentivos.
Os desenvolvedores da H Company realizaram fine-tuning do modelo em uma mistura própria de dados para localização de elementos de interface e navegação. O objetivo é que o agente compreenda melhor botões, campos de entrada, estruturas de páginas e a relação entre o contexto visual e a ação. O Holotron-12B já está disponível no Hugging Face sob a licença NVIDIA Open Model License, podendo ser usado como base para web agents, ferramentas internas de automação e pipelines de aprendizado por reforço online.
Velocidade sob carga
A aposta central do Holotron-12B não é apenas a qualidade das ações, mas a eficiência de inferência. O modelo é construído sobre uma arquitetura híbrida SSM + attention herdada do Nemotron. Na prática, isso é uma tentativa de resolver o principal problema das cargas de trabalho agentivas: históricos de interação longos, muitas imagens de alta resolução e dezenas de requisições paralelas atingem rapidamente os limites de memória e bandwidth de GPU. Na abordagem SSM, o estado é armazenado de forma mais compacta do que em um transformer clássico com KV cache grande, por isso o modelo escala melhor em cenários reais.
- Os testes foram realizados em um único NVIDIA H100 via vLLM com otimizações SSM da versão 0.14.1
- Em cargas de trabalho reais de agentes multimodais, o modelo apresentou throughput mais de 2x superior em comparação com o Holo2-8B
- No gráfico de generation throughput, o Holotron-12B alcançou 149 tokens por segundo contra 69 do Holo2-8B
- Com concurrency 100, o throughput total aumentou para 8.900 tokens por segundo contra 5.100 do Holo2-8B
Para equipes que constroem pipelines de geração de dados em larga escala, anotação ou RL online, isso não é uma melhoria cosmética. Se o modelo suporta uma carga de lote maior no mesmo hardware, o custo por cenário agentivo cai e implantá-los em produção se torna mais simples. É exatamente por isso que a H Company enfatiza não o tamanho máximo do modelo, mas a capacidade de atender de forma estável sessões agentivas longas com alta concorrência de requisições.
Treinamento e benchmarks
O Holotron-12B foi treinado em duas etapas. A base foi o modelo multimodal aberto NVIDIA Nemotron-Nano-12B-v2-VL-BF16, após o qual a H Company realizou supervised fine-tuning em uma mistura proprietária de dados para localização e navegação. Os desenvolvedores destacam especificamente o foco em screen understanding, grounding e UI-level interactions — ou seja, a capacidade do modelo não apenas de descrever a tela, mas de vincular corretamente uma ação a um elemento específico da interface. O checkpoint final foi treinado em aproximadamente 14 bilhões de tokens.
Os resultados nos benchmarks parecem sólidos. No WebVoyager, o sucesso subiu de 35,1% para o modelo base Nemotron para 80,5% no Holotron-12B, ligeiramente acima dos 80,2% do Holo2-8B. Nas tarefas de GUI localization, a precisão média aumentou para 74,2% contra 24,6% da versão base. Os resultados individuais dos testes também mostram uma variação notável: 49% no OSWorld-G, 66,1% no Showdown, 82% no GroundUI-1k, 83,8% no WebClick v1 e 89,9% no Screenspot V2. Isso significa que a melhoria cobre não apenas um benchmark conveniente, mas vários cenários de compreensão de interfaces.
O que isso significa
O mercado de agentes de AI está gradualmente se afastando dos VLMs de propósito geral em direção a modelos mais especializados, otimizados para trabalho específico com interfaces e para a economia de produção. O Holotron-12B é interessante precisamente por isso: demonstra que para sistemas de computer-use hoje, o que importa não são apenas as porcentagens nos benchmarks, mas o throughput real em uma única GPU. Para empresas que constroem agentes de navegador ou desktop, isso não é mais uma métrica secundária — é um requisito básico para escalar.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.