H Company présente Holo3 — un agent AI pour travailler sur ordinateur avec un score record sur OSWorld-Verified
H Company a présenté Holo3, un modèle pour travailler sur ordinateur qui a obtenu 78,85 % sur OSWorld-Verified. L’entreprise ne mise pas uniquement sur le…
Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
H Company a présenté Holo3 — un nouveau modèle pour le travail sur ordinateur qui, selon l'entreprise, a atteint 78,85% au benchmark OSWorld-Verified et est devenu leader parmi les systèmes de computer use. Les développeurs le positionnent non comme un prototype de laboratoire, mais comme fondation pour des agents corporatifs capables de travailler avec des interfaces réelles et des tâches multi-étapes.
Record en OSWorld
Le chiffre principal de l'annonce est 78,85% sur OSWorld-Verified, l'un des principaux benchmarks pour évaluer comment les modèles se débrouillent en travaillant sur un ordinateur ordinaire. H Company souligne que Holo3 non seulement affiche un score élevé, mais le maintient avec une configuration relativement compacte : le modèle a 10 milliards de paramètres actifs sur 122 milliards au total. L'entreprise compare séparément les coûts avec des systèmes fermés plus grands comme GPT 5.4 et Opus 4.6, et promet une inférence moins chère. Les poids publics de Holo3-35B-A3B sont déjà disponibles sur Hugging Face sous la licence Apache 2.0.
Comment Elle a Été Entraînée
La base de Holo3 est ce qu'on appelle un agentic learning flywheel — une boucle d'apprentissage continue qui améliore deux choses : la perception de l'interface et la prise de décision. Au lieu d'un seul ensemble de captures d'écran ou de scénarios manuels, l'équipe construit un flux de tâches sur lesquelles le modèle apprend à comprendre l'écran, choisir l'étape suivante et maintenir le contexte dans de longues séquences d'actions. Un accent particulier a été mis sur la généralisation : le système est entraîné non sur un produit, mais sur une classe d'interfaces qu'il pourrait rencontrer dans son travail.
- Synthetic Navigation Data — scénarios de navigation collectés à partir d'instructions humaines et générées.
- Out-of-Domain Augmentation — expansion programmatique de scénarios pour que l'agent ne se casse pas face à des interfaces inattendues et des écarts par rapport aux modèles.
- Curated Reinforcement Learning — filtrage des données et apprentissage par renforcement pour maximiser la précision sur les tâches réelles.
L'idée est de s'entraîner non sur un CRM spécifique ou un site web, mais sur une compétence plus générale de travail avec les interfaces. C'est pourquoi H Company mise non seulement sur le score final du benchmark, mais aussi sur la transférabilité : si le modèle comprend la logique des écrans et peut prendre des décisions étape par étape, il est plus facile de l'adapter à de nouveaux systèmes sans réapprentissage complet. C'est particulièrement important pour les logiciels d'entreprise, où les interfaces sont souvent non standard et changent plus vite que les ensembles de données peuvent être mis à jour.
Bureau Synthétique
Pour vérifier si cette approche fonctionne en dehors du laboratoire, l'entreprise a construit une Synthetic Environment Factory — une usine d'environnements d'entreprise synthétiques. Les agents de codage assemblent automatiquement des sites Web et des interfaces à partir de zéro selon les spécifications fournies, après quoi des tâches vérifiables de complexité variable sont générées pour eux. Sur cette base, H Company a créé un ensemble séparé de H Corporate Benchmarks : 486 tâches réalistes multi-étapes dans quatre catégories — e-commerce, logiciels d'entreprise, outils de collaboration et scénarios multi-app.
C'est déjà plus proche non de démos jouets, mais de la façon dont les employés travaillent réellement dans une entreprise. Les tâches les plus complexes nécessitent une coordination entre plusieurs systèmes à la fois.
Un exemple de l'article : l'agent doit extraire les prix du matériel d'un PDF, les comparer au budget restant de chaque employé, puis envoyer automatiquement des lettres personnalisées avec approbation ou refus. Pour une telle chaîne, simplement reconnaître du texte à l'écran ne suffit pas. Vous avez besoin de calculs, de gestion de documents, de mémoire des étapes intermédiaires et de la capacité à ne pas perdre de vue l'objectif au cours du processus. Selon H Company, c'est sur ces scénarios que Holo3 montre un avantage sur les modèles de base Qwen3.5 et est leader dans les tests single-app.
Que Signifie Cela
Le marché des agents IA pour le travail sur ordinateur se déplace de plus en plus des démonstrations aux scénarios de produits : il ne suffit pas de pouvoir cliquer sur l'écran, il faut aussi gérer la routine d'entreprise et les interfaces non standard. Holo3 est intéressant précisément pour cette orientation. Si les résultats déclarés sont confirmés en dehors des tests internes, les entreprises auront un autre candidat réel pour le rôle d'agent IA de bureau, pas seulement un autre modèle pour les classements. C'est déjà une concurrence non seulement sur la qualité du modèle, mais sur la préparation au travail de bureau réel.
Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?
AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.