Hugging Face Blog→ original

H Company lançou Holotron-12B — um modelo para agentes com aumento de velocidade de 2x

A H Company apresentou Holotron-12B, um modelo para agentes de computer-use baseado em NVIDIA Nemotron. Os desenvolvedores apostam em throughput: em um teste…

Processado por IA de Hugging Face Blog; editado por Hamidun News
H Company lançou Holotron-12B — um modelo para agentes com aumento de velocidade de 2x
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A H Company lançou o Holotron-12B — um modelo multimodal para agentes de AI que interagem com interfaces como um usuário humano. A novidade é construída sobre a NVIDIA Nemotron de código aberto e foi desenvolvida não para demonstrações impressionantes, mas para alto throughput em produção.

Para quais tarefas

O Holotron-12B se posiciona como um policy model para agentes de computer-use: sistemas que precisam ver a tela, entender os elementos da interface, escolher a próxima ação e concluir tarefas do começo ao fim. Ao contrário de muitos modelos multimodais focados em reconhecimento estático de imagens ou chat comum baseado em imagens, o foco aqui é deslocado para sessões longas, cadeias de ações e o trabalho com múltiplas capturas de tela simultaneamente. Essa é uma mudança importante: o modelo foi projetado não como um assistente de propósito geral, mas como um módulo de trabalho para sistemas agentivos.

Os desenvolvedores da H Company realizaram fine-tuning do modelo em uma mistura própria de dados para localização de elementos de interface e navegação. O objetivo é que o agente compreenda melhor botões, campos de entrada, estruturas de páginas e a relação entre o contexto visual e a ação. O Holotron-12B já está disponível no Hugging Face sob a licença NVIDIA Open Model License, podendo ser usado como base para web agents, ferramentas internas de automação e pipelines de aprendizado por reforço online.

Velocidade sob carga

A aposta central do Holotron-12B não é apenas a qualidade das ações, mas a eficiência de inferência. O modelo é construído sobre uma arquitetura híbrida SSM + attention herdada do Nemotron. Na prática, isso é uma tentativa de resolver o principal problema das cargas de trabalho agentivas: históricos de interação longos, muitas imagens de alta resolução e dezenas de requisições paralelas atingem rapidamente os limites de memória e bandwidth de GPU. Na abordagem SSM, o estado é armazenado de forma mais compacta do que em um transformer clássico com KV cache grande, por isso o modelo escala melhor em cenários reais.

  • Os testes foram realizados em um único NVIDIA H100 via vLLM com otimizações SSM da versão 0.14.1
  • Em cargas de trabalho reais de agentes multimodais, o modelo apresentou throughput mais de 2x superior em comparação com o Holo2-8B
  • No gráfico de generation throughput, o Holotron-12B alcançou 149 tokens por segundo contra 69 do Holo2-8B
  • Com concurrency 100, o throughput total aumentou para 8.900 tokens por segundo contra 5.100 do Holo2-8B

Para equipes que constroem pipelines de geração de dados em larga escala, anotação ou RL online, isso não é uma melhoria cosmética. Se o modelo suporta uma carga de lote maior no mesmo hardware, o custo por cenário agentivo cai e implantá-los em produção se torna mais simples. É exatamente por isso que a H Company enfatiza não o tamanho máximo do modelo, mas a capacidade de atender de forma estável sessões agentivas longas com alta concorrência de requisições.

Treinamento e benchmarks

O Holotron-12B foi treinado em duas etapas. A base foi o modelo multimodal aberto NVIDIA Nemotron-Nano-12B-v2-VL-BF16, após o qual a H Company realizou supervised fine-tuning em uma mistura proprietária de dados para localização e navegação. Os desenvolvedores destacam especificamente o foco em screen understanding, grounding e UI-level interactions — ou seja, a capacidade do modelo não apenas de descrever a tela, mas de vincular corretamente uma ação a um elemento específico da interface. O checkpoint final foi treinado em aproximadamente 14 bilhões de tokens.

Os resultados nos benchmarks parecem sólidos. No WebVoyager, o sucesso subiu de 35,1% para o modelo base Nemotron para 80,5% no Holotron-12B, ligeiramente acima dos 80,2% do Holo2-8B. Nas tarefas de GUI localization, a precisão média aumentou para 74,2% contra 24,6% da versão base. Os resultados individuais dos testes também mostram uma variação notável: 49% no OSWorld-G, 66,1% no Showdown, 82% no GroundUI-1k, 83,8% no WebClick v1 e 89,9% no Screenspot V2. Isso significa que a melhoria cobre não apenas um benchmark conveniente, mas vários cenários de compreensão de interfaces.

O que isso significa

O mercado de agentes de AI está gradualmente se afastando dos VLMs de propósito geral em direção a modelos mais especializados, otimizados para trabalho específico com interfaces e para a economia de produção. O Holotron-12B é interessante precisamente por isso: demonstra que para sistemas de computer-use hoje, o que importa não são apenas as porcentagens nos benchmarks, mas o throughput real em uma única GPU. Para empresas que constroem agentes de navegador ou desktop, isso não é mais uma métrica secundária — é um requisito básico para escalar.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…