H Company lanzó Holotron-12B — un modelo para agentes con un aumento de velocidad de 2x
H Company presentó Holotron-12B, un modelo para agentes de computer-use basado en NVIDIA Nemotron. Los desarrolladores apuestan por el throughput: en una…
Procesado por IA desde Hugging Face Blog; editado por Hamidun News
H Company ha lanzado Holotron-12B — un modelo multimodal para agentes de AI que interactúan con interfaces como un usuario humano. La novedad está construida sobre la NVIDIA Nemotron de código abierto y está diseñada no para demostraciones impresionantes, sino para un alto throughput en producción.
Para qué tareas
Holotron-12B se posiciona como un policy model para agentes de computer-use: sistemas que deben ver la pantalla, entender los elementos de la interfaz, elegir la siguiente acción y completar las tareas de principio a fin. A diferencia de muchos modelos multimodales orientados al reconocimiento estático de imágenes o al chat habitual basado en imágenes, el foco aquí se desplaza hacia sesiones largas, cadenas de acciones y el trabajo con múltiples capturas de pantalla de forma simultánea. Este es un cambio importante: el modelo fue diseñado no como un asistente de propósito general, sino como un módulo de trabajo para sistemas agentivos.
Los desarrolladores de H Company ajustaron el modelo con su propia mezcla de datos para la localización de elementos de interfaz y la navegación. El objetivo es que el agente entienda mejor los botones, los campos de entrada, las estructuras de las páginas y la relación entre el contexto visual y la acción. Holotron-12B ya está disponible en Hugging Face bajo la licencia NVIDIA Open Model License, por lo que puede utilizarse como base para web agents, herramientas internas de automatización y bucles de aprendizaje por refuerzo en línea.
Velocidad bajo carga
La apuesta clave de Holotron-12B no es solo la calidad de las acciones, sino la eficiencia en la inferencia. El modelo está construido sobre una arquitectura híbrida SSM + attention heredada de Nemotron. En esencia, es un intento de resolver el principal problema de las cargas de trabajo agentivas: los historiales de interacción largos, las numerosas imágenes de alta resolución y las decenas de solicitudes paralelas chocan rápidamente con los límites de memoria y el ancho de banda de la GPU. Con el enfoque SSM, el estado se almacena de forma más compacta que en un transformer clásico con un KV cache grande, por lo que el modelo escala mejor en escenarios reales.
- Las pruebas se realizaron en una sola NVIDIA H100 a través de vLLM con optimizaciones SSM de la versión 0.14.1
- En cargas de trabajo reales de agentes multimodales, el modelo mostró un throughput más de 2 veces superior al de Holo2-8B
- En el gráfico de generation throughput, Holotron-12B alcanzó 149 tokens por segundo frente a 69 de Holo2-8B
- Con concurrency 100, el throughput total aumentó a 8.900 tokens por segundo frente a 5.100 de Holo2-8B
Para los equipos que construyen pipelines masivos de generación de datos, anotación o RL online, esto no es una mejora cosmética. Si el modelo soporta una carga de lote mayor con el mismo hardware, el coste por escenario agentivo baja y lanzarlos en producción se vuelve más sencillo. Por eso H Company pone el énfasis no en el tamaño máximo del modelo, sino en la capacidad de atender de forma estable sesiones agentivas largas con alta concurrencia de solicitudes.
Entrenamiento y benchmarks
Holotron-12B fue entrenado en dos etapas. La base fue el modelo multimodal abierto NVIDIA Nemotron-Nano-12B-v2-VL-BF16, tras lo cual H Company realizó un supervised fine-tuning sobre una mezcla propietaria de datos de localización y navegación. Los desarrolladores destacan especialmente el énfasis en screen understanding, grounding y UI-level interactions — es decir, la capacidad del modelo de no solo describir la pantalla, sino de vincular correctamente una acción a un elemento específico de la interfaz. El checkpoint final fue entrenado con aproximadamente 14 mil millones de tokens.
Los resultados en los benchmarks son sólidos. En WebVoyager, el éxito creció del 35,1% del modelo base Nemotron al 80,5% de Holotron-12B, ligeramente por encima del 80,2% de Holo2-8B. En las tareas de GUI localization, la precisión media subió al 74,2% frente al 24,6% de la versión base. En pruebas individuales la variación también es notable: 49% en OSWorld-G, 66,1% en Showdown, 82% en GroundUI-1k, 83,8% en WebClick v1 y 89,9% en Screenspot V2. Es decir, la mejora no se limita a un único benchmark conveniente, sino que abarca varios escenarios de comprensión de interfaces.
Qué significa esto
El mercado de agentes de AI se está alejando gradualmente de los VLM de propósito general hacia modelos más especializados, optimizados para trabajar con interfaces específicas y para la economía de producción. Holotron-12B resulta interesante precisamente por eso: demuestra que para los sistemas de computer-use hoy en día no solo importan los porcentajes en los benchmarks, sino el throughput real en una sola GPU. Para las empresas que construyen agentes de navegador o de escritorio, esta ya no es una métrica secundaria, sino un requisito básico para escalar.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.