H Company presenta Holo3 — un agente de AI para usar la computadora con una puntuación récord en OSWorld-Verified
H Company presentó Holo3, un modelo para usar la computadora que obtuvo 78,85% en OSWorld-Verified. La empresa no apuesta solo por el benchmark: el sistema…
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
H Company presentó Holo3 — un nuevo modelo para trabajo en computadora que, según la empresa, logró 78,85% en el benchmark OSWorld-Verified y se convirtió en líder entre sistemas de computer use. Los desarrolladores lo posicionan no como un prototipo de laboratorio, sino como la base para agentes corporativos capaces de trabajar con interfaces reales y tareas multietapa.
Récord en OSWorld
La cifra principal del anuncio es 78,85% en OSWorld-Verified, uno de los principales benchmarks para evaluar cómo los modelos se desempeñan trabajando en una computadora ordinaria. H Company enfatiza que Holo3 no solo muestra una puntuación alta, sino que la mantiene con una configuración relativamente compacta: el modelo tiene 10 mil millones de parámetros activos de 122 mil millones en total. La empresa compara por separado costos con sistemas cerrados más grandes como GPT 5.4 y Opus 4.6, y promete inferencia más económica. Los pesos públicos de Holo3-35B-A3B ya están disponibles en Hugging Face bajo la licencia Apache 2.0.
Cómo Fue Entrenada
La base de Holo3 es lo que se llama agentic learning flywheel — un ciclo continuo de aprendizaje que mejora dos cosas: percepción de interfaces y toma de decisiones. En lugar de un único conjunto de capturas de pantalla o escenarios manuales, el equipo construye un flujo de tareas en las que el modelo aprende a entender la pantalla, elegir el siguiente paso y mantener el contexto en largas secuencias de acciones. Se puso énfasis especial en la generalización: el sistema se entrena no en un producto, sino en una clase de interfaces que puede encontrar en su trabajo.
- Synthetic Navigation Data — escenarios de navegación recopilados de instrucciones humanas y generadas.
- Out-of-Domain Augmentation — expansión programática de escenarios para que el agente no se rompa cuando enfrenta interfaces inesperadas y desviaciones de plantillas.
- Curated Reinforcement Learning — filtrado de datos y aprendizaje por refuerzo para maximizar la precisión en tareas reales.
La idea es entrenar no en un CRM específico o un sitio web, sino en una habilidad más general de trabajo con interfaces. Por eso H Company apuesta no solo en la puntuación final del benchmark, sino en la transferibilidad: si el modelo entiende la lógica de las pantallas y puede tomar decisiones paso a paso, es más fácil adaptarlo a nuevos sistemas sin reentrenamiento completo. Esto es especialmente importante para software corporativo, donde las interfaces a menudo no son estándar y cambian más rápido de lo que los conjuntos de datos pueden actualizarse.
Oficina Sintética
Para verificar si este enfoque funciona fuera del laboratorio, la empresa construyó una Synthetic Environment Factory — una fábrica de entornos corporativos sintéticos. Los agentes de codificación ensamblan automáticamente sitios web e interfaces desde cero de acuerdo con especificaciones proporcionadas, después de lo cual se generan tareas verificables de complejidad variable para ellas. Con base en esto, H Company creó un conjunto separado de H Corporate Benchmarks: 486 tareas realistas multietapa en cuatro categorías — e-commerce, software empresarial, herramientas de colaboración y escenarios multi-app. Esto ya está más cerca no de demostraciones de juguete, sino de cómo los empleados realmente trabajan dentro de una empresa. Las tareas más complejas requieren coordinación entre múltiples sistemas a la vez.
Un ejemplo del artículo: el agente debe extraer precios de equipos de un PDF, compararlos con el presupuesto restante de cada empleado y luego enviar automáticamente cartas personalizadas con aprobación o rechazo. Para una cadena como esta, simplemente reconocer texto en la pantalla no es suficiente. Necesitas cálculos, manejo de documentos, memoria de pasos intermedios y capacidad de no perder de vista el objetivo durante el proceso. Según H Company, es en tales escenarios que Holo3 muestra ventaja sobre modelos baseline Qwen3.5 y lidera en pruebas single-app.
Qué Significa Esto
El mercado de agentes IA para trabajo en computadora se está desplazando cada vez más de demostraciones a escenarios de productos: no es suficiente poder hacer clic en la pantalla, también necesitas manejar la rutina corporativa e interfaces no estándar. Holo3 es interesante precisamente por este enfoque. Si los resultados declarados se confirman fuera de las pruebas internas, los negocios obtendrán otro candidato real para el papel de agente IA de oficina, no solo otro modelo para las tablas de clasificación. Esto es ya una competencia no solo en la calidad del modelo, sino en la preparación para el trabajo de oficina real.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.