Hugging Face Blog→ original

H Company a publié Holotron-12B — un modèle pour agents avec une vitesse multipliée par deux

H Company a présenté Holotron-12B, un modèle pour agents de computer-use basé sur NVIDIA Nemotron. Les développeurs misent sur le throughput : lors d'un test…

Traité par IA depuis Hugging Face Blog ; édité par Hamidun News
H Company a publié Holotron-12B — un modèle pour agents avec une vitesse multipliée par deux
Source : Hugging Face Blog. Collage: Hamidun News.
◐ Écouter l'article

H Company a lancé Holotron-12B — un modèle multimodal pour des agents AI qui interagissent avec des interfaces comme un utilisateur humain. La nouveauté est construite sur la base de NVIDIA Nemotron open-source et est conçue non pas pour des démos impressionnantes, mais pour un débit élevé en production.

Pour quelles tâches

Holotron-12B se positionne comme un policy model pour les agents computer-use : des systèmes qui doivent voir l'écran, comprendre les éléments de l'interface, choisir l'action suivante et mener les tâches à terme. Contrairement à de nombreux modèles multimodaux orientés vers la reconnaissance statique d'images ou le chat standard basé sur les images, le focus est ici déplacé vers les longues sessions, les chaînes d'actions et le traitement simultané de plusieurs captures d'écran. Il s'agit d'un changement important : le modèle a été conçu non pas comme un assistant généraliste, mais comme un module de travail pour les systèmes agentiques.

Les développeurs de H Company ont affiné le modèle sur leur propre mélange de données pour la localisation des éléments d'interface et la navigation. L'objectif est que l'agent comprenne mieux les boutons, les champs de saisie, les structures de pages et la relation entre le contexte visuel et l'action. Holotron-12B est déjà disponible sur Hugging Face sous la licence NVIDIA Open Model License, ce qui permet de l'utiliser comme base pour des web agents, des outils d'automatisation internes et des pipelines d'apprentissage par renforcement en ligne.

Vitesse sous charge

Le pari central de Holotron-12B n'est pas seulement la qualité des actions, mais l'efficacité de l'inférence. Le modèle est construit sur une architecture hybride SSM + attention héritée de Nemotron. En substance, c'est une tentative de résoudre le principal problème des charges de travail agentiques : les longs historiques d'interactions, les nombreuses images haute résolution et les dizaines de requêtes parallèles heurtent rapidement les limites de la mémoire et de la bande passante GPU. Avec l'approche SSM, l'état est stocké de manière plus compacte que dans un transformer classique avec un grand KV cache, ce qui permet au modèle de mieux passer à l'échelle dans des scénarios réels.

  • Les tests ont été effectués sur un seul NVIDIA H100 via vLLM avec les optimisations SSM de la version 0.14.1
  • Dans des charges de travail réelles d'agents multimodaux, le modèle a affiché un throughput plus de 2 fois supérieur à celui de Holo2-8B
  • Sur le graphique de generation throughput, Holotron-12B a atteint 149 tokens par seconde contre 69 pour Holo2-8B
  • À une concurrency de 100, le throughput total a augmenté à 8 900 tokens par seconde contre 5 100 pour Holo2-8B

Pour les équipes qui construisent des pipelines massifs de génération de données, d'annotation ou de RL online, il ne s'agit pas d'une amélioration cosmétique. Si le modèle supporte une charge par lots plus importante sur le même matériel, le coût par scénario agentique baisse et leur déploiement en production devient plus aisé. C'est précisément pourquoi H Company met l'accent non sur la taille maximale du modèle, mais sur la capacité à servir de manière stable de longues sessions agentiques avec une haute concurrence de requêtes.

Entraînement et benchmarks

Holotron-12B a été entraîné en deux étapes. La base était le modèle multimodal ouvert NVIDIA Nemotron-Nano-12B-v2-VL-BF16, après quoi H Company a effectué un supervised fine-tuning sur un mélange propriétaire de données de localisation et de navigation. Les développeurs soulignent particulièrement l'accent mis sur le screen understanding, le grounding et les UI-level interactions — c'est-à-dire la capacité du modèle non pas à simplement décrire l'écran, mais à associer correctement une action à un élément spécifique de l'interface. Le checkpoint final a été entraîné sur environ 14 milliards de tokens.

Les résultats sur les benchmarks semblent solides. Sur WebVoyager, le taux de succès est passé de 35,1 % pour le modèle Nemotron de base à 80,5 % pour Holotron-12B, légèrement au-dessus des 80,2 % de Holo2-8B. Dans les tâches de GUI localization, la précision moyenne est montée à 74,2 % contre 24,6 % pour la version de base. Les résultats sur les tests individuels présentent également une variation notable : 49 % sur OSWorld-G, 66,1 % sur Showdown, 82 % sur GroundUI-1k, 83,8 % sur WebClick v1 et 89,9 % sur Screenspot V2. Cela signifie que l'amélioration ne concerne pas un seul benchmark pratique, mais plusieurs scénarios de compréhension d'interface.

Ce que cela signifie

Le marché des agents AI s'éloigne progressivement des VLM généralistes vers des modèles plus spécialisés, optimisés pour un travail spécifique avec les interfaces et pour l'économie de la production. Holotron-12B est intéressant précisément pour cette raison : il démontre que pour les systèmes computer-use aujourd'hui, ce qui compte n'est pas seulement les pourcentages sur les benchmarks, mais le vrai throughput sur un seul GPU. Pour les entreprises qui construisent des agents de navigateur ou de bureau, il ne s'agit plus d'une métrique secondaire — c'est une condition de base pour passer à l'échelle.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…