MolmoWeb-4B de Ai2: Un agente web que ve sitios como humanos, sin parsing de HTML
Ai2 (Allen Institute for AI) lanzó MolmoWeb-4B — un agente web de código abierto que controla un navegador de la misma manera que lo hacen los humanos…
Procesado por IA desde MarkTechPost; editado por Hamidun News
Ai2 (Allen Institute for AI) ha presentado MolmoWeb-4B, un agente web multimodal de código abierto que controla un navegador exclusivamente usando capturas de pantalla, sin analizar HTML.
Visión en lugar de análisis
La mayoría de los agentes web funcionan con el árbol DOM: leen el código HTML de una página, encuentran los elementos necesarios e interactúan con ellos programáticamente. Este enfoque falla en sitios dinámicos, interfaces Canvas y páginas con JavaScript pesado.
MolmoWeb toma un camino diferente. El modelo recibe una captura de pantalla del estado actual del navegador y ve la página como una imagen—exactamente como la ve un humano. Tarea del agente: entender qué está sucediendo en la pantalla y decidir qué hacer a continuación. Sin HTML, sin selectores DOM—solo píxeles y razonamiento multimodal.
Cómo funciona el pipeline
Bajo el capó, MolmoWeb-4B es un modelo de lenguaje multimodal con 4 mil millones de parámetros y cuantización de 4 bits. Esto permite ejecutarlo en Google Colab gratuito con GPU T4—lo cual es especialmente importante para desarrolladores sin hardware costoso.
El ciclo de trabajo del agente consta de cinco pasos:
- Capturar una captura de pantalla del estado actual del navegador
- Pasar la imagen a MolmoWeb-4B
- Razonamiento del modelo sobre el estado de la página (chain-of-thought)
- Predecir la siguiente acción: clic, entrada de texto, desplazamiento
- Ejecutar la acción y capturar una nueva captura de pantalla
La idea clave del flujo de prompt es forzar al modelo a razonar explícitamente antes de actuar. El agente no simplemente 've un botón y hace clic'—articula exactamente qué observa en la pantalla, explica por qué debe hacer clic allí, y solo entonces genera coordenadas o un comando. Esta es una adaptación del prompting chain-of-thought para la percepción visual de interfaces.
Acceso abierto y práctica
MolmoWeb se publica bajo una licencia abierta de Ai2, lo que significa que cualquier desarrollador puede desplegar su propio agente web sin dependencia de APIs pagadas de OpenAI, Google o Anthropic. Los autores publican un tutorial completo: desde la configuración del entorno en Colab y la carga del modelo a través de Transformers hasta la integración con Playwright para control del navegador. El ciclo del agente se construye desde cero—captura de pantalla, paso al modelo, análisis de la respuesta, ejecución de la acción.
Ventajas prácticas:
- Ejecutar sin claves de API de servicios externos
- No requiere marcado especial del sitio o complementos de navegador
- Compatible con cualquier sitio y sistema operativo
- La versión cuantizada (4 bits) funciona en Colab T4
- Pipeline totalmente reproducible en acceso abierto
Aclaración: por ahora, esto es una herramienta de investigación. La velocidad (un paso toma varios segundos) y la precisión de la predicción de acciones quedan por debajo de agentes especializados con acceso directo al DOM.
Contexto: La carrera de agentes de navegador
Los agentes de navegador son una de las direcciones más activas en el desarrollo de IA en 2025-2026. Anthropic Computer Use, Google Project Mariner, OpenAI Operator—los grandes actores están trabajando activamente para permitir que los modelos de IA controlen computadoras en lugar de humanos. MolmoWeb de Ai2 ocupa su propio nicho: completamente abierto, reproducible y ejecutándose en hardware de consumidor. No es un competidor directo de las soluciones corporativas—es una herramienta para investigadores y desarrolladores que quieren construir agentes independientemente.
Qué significa esto
Un agente de navegador abierto con 4B parámetros ejecutado en Colab es una reducción de la barrera de entrada para tareas de automatización web. Los equipos sin presupuestos corporativos obtienen una herramienta funcional para experimentar con agentes impulsados por visión en lugar de marcado de código.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.