Hugging Face Blog→ original

H Company apresenta Holo3 — um agente de AI para usar o computador com pontuação recorde no OSWorld-Verified

A H Company apresentou o Holo3, um modelo para usar o computador que alcançou 78,85% no OSWorld-Verified. A empresa não aposta apenas no benchmark: o sistema…

Processado por IA de Hugging Face Blog; editado por Hamidun News
H Company apresenta Holo3 — um agente de AI para usar o computador com pontuação recorde no OSWorld-Verified
Fonte: Hugging Face Blog. Colagem: Hamidun News.
◐ Ouvir artigo

A H Company apresentou a Holo3 — um novo modelo para trabalho em computador que, segundo a empresa, alcançou 78,85% no benchmark OSWorld-Verified e se tornou líder entre sistemas de computer use. Os desenvolvedores a posicionam não como um protótipo laboratorial, mas como fundação para agentes corporativos capazes de trabalhar com interfaces reais e tarefas com múltiplas etapas.

Recorde em OSWorld

O número principal do anúncio é 78,85% no OSWorld-Verified, um dos principais benchmarks para avaliar como os modelos se saem ao trabalhar em um computador comum. A H Company enfatiza que Holo3 não apenas obtém uma pontuação alta, mas a mantém com uma configuração relativamente compacta: o modelo tem 10 bilhões de parâmetros ativos de 122 bilhões no total. A empresa compara separadamente os custos com sistemas fechados maiores como GPT 5.4 e Opus 4.6, e promete inference mais barato. Os pesos públicos de Holo3-35B-A3B já estão disponíveis no Hugging Face sob a licença Apache 2.0.

Como Foi Treinada

A base da Holo3 é o chamado agentic learning flywheel — um ciclo contínuo de aprendizagem que melhora duas coisas: percepção de interface e tomada de decisão. Em vez de um único conjunto de screenshots ou cenários manuais, a equipe constrói um fluxo de tarefas nas quais o modelo aprende a entender a tela, escolher o próximo passo e manter o contexto em longas sequências de ações. Foco especial foi colocado em generalização: o sistema é treinado não em um produto, mas em uma classe de interfaces que pode encontrar em seu trabalho.

  • Synthetic Navigation Data — cenários de navegação coletados de instruções humanas e geradas.
  • Out-of-Domain Augmentation — expansão programática de cenários para que o agente não quebre quando enfrentado com interfaces inesperadas e desvios de templates.
  • Curated Reinforcement Learning — filtragem de dados e aprendizado por reforço para maximizar a precisão em tarefas reais.

A ideia é treinar não em um CRM específico ou em um website, mas em uma habilidade mais geral de trabalho com interfaces. É por isso que a H Company aposta não apenas na pontuação final do benchmark, mas na transferibilidade: se o modelo entende a lógica das telas e consegue tomar decisões passo a passo, é mais fácil adaptá-lo a novos sistemas sem retreinamento completo. Isso é especialmente importante para software corporativo, onde as interfaces muitas vezes são não-padrão e mudam mais rápido do que os datasets conseguem ser atualizados.

Escritório Sintético

Para verificar se essa abordagem funciona fora do laboratório, a empresa construiu uma Synthetic Environment Factory — uma fábrica de ambientes corporativos sintéticos. Agentes de codificação montam automaticamente websites e interfaces do zero de acordo com especificações fornecidas, depois disso tarefas verificáveis de complexidade variável são geradas para eles. Com base nisso, a H Company criou um conjunto separado de H Corporate Benchmarks: 486 tarefas realistas com múltiplas etapas em quatro categorias — e-commerce, software de negócios, ferramentas de colaboração e cenários multi-app. Isso já está mais próximo não de demos de brinquedo, mas de como os funcionários realmente trabalham dentro de uma empresa. As tarefas mais complexas exigem coordenação entre vários sistemas simultaneamente.

Um exemplo do artigo: o agente deve extrair preços de equipamentos de um PDF, compará-los com o orçamento restante de cada funcionário e depois enviar automaticamente cartas personalizadas com aprovação ou recusa. Para tal cadeia, simplesmente reconhecer texto na tela não é suficiente. Você precisa de cálculos, manipulação de documentos, memória de etapas intermediárias e capacidade de não perder de vista o objetivo durante o processo. Segundo a H Company, é nesses cenários que Holo3 mostra vantagem sobre modelos baseline Qwen3.5 e lidera nos testes single-app.

O Que Isso Significa

O mercado de agentes IA para trabalho em computador está se deslocando cada vez mais de demonstrações para cenários de produto: não é suficiente conseguir clicar na tela, você também precisa lidar com rotina corporativa e interfaces não-padrão. Holo3 é interessante precisamente por esse foco. Se os resultados declarados forem confirmados fora dos testes internos, os negócios terão mais um candidato real para o papel de agente IA de escritório, não apenas outro modelo para placares. Isso é já uma competição não apenas na qualidade do modelo, mas na prontidão para trabalho de escritório real.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…