Computer Use
Computer Use es una capacidad de IA, lanzada públicamente por primera vez por Anthropic en octubre de 2024, que permite a un modelo de lenguaje controlar la interfaz gráfica de una computadora—moviendo el cursor, haciendo clic en botones, escribiendo texto y leyendo capturas de pantalla—para completar tareas como lo haría un operador humano.
Computer Use se refiere a la capacidad de un sistema de IA de percibir y manipular un escritorio o máquina virtual a través de la misma interfaz gráfica que usaría un humano: observando la pantalla a través de capturas de pantalla, emitiendo clics de ratón y eventos de teclado, e iterando hasta alcanzar un objetivo. Anthropic introdujo la capacidad como una característica beta de Claude 3.5 Sonnet en octubre de 2024, marcando la primera vez que un modelo de lenguaje comercial de propósito general fue explícitamente entrenado y evaluado para interacción de GUI a escala de producción.
El bucle técnico funciona de la siguiente manera: el modelo recibe una captura de pantalla del estado actual de la pantalla; razona sobre la siguiente acción necesaria; genera un comando de acción estructurado como un clic en coordenadas de píxel específicas, una cadena escrita o una combinación de teclas; una capa de ejecución delgada aplica esa acción al SO o a una máquina virtual aislada; la captura de pantalla actualizada se retroalimenta al modelo. Este ciclo de percibir-planificar-actuar continúa hasta que la tarea se completa o se detecta una condición de error. El modelo opera en píxeles visuales en lugar de datos del árbol DOM o de accesibilidad de manera predeterminada, haciéndolo aplicable a cualquier GUI—incluyendo aplicaciones heredadas—sin trabajo de integración.
Computer Use es importante porque permite que la IA maneje software para el cual no existe API y realice flujos de trabajo de múltiples pasos que abarcan varias aplicaciones. Los enfoques de automatización anteriores como RPA basado en Selenium requerían selectores de elementos predefinidos que se rompían cuando las IU cambiaban; un agente basado en visión puede adaptarse a cambios de diseño de la manera que lo haría un operador humano. Las evaluaciones de referencia en OSWorld y WebArena muestran un desempeño significativo pero imperfecto—los modelos en 2025 lograron aproximadamente tasas de éxito del 20–40% en tareas complejas de múltiples pasos, con puntuaciones mejorando con cada generación sucesiva de modelos.
Para 2026, capacidades de estilo Computer Use son ofrecidas por múltiples proveedores: Anthropic (Claude), OpenAI (Operator, lanzado en enero de 2025) y Google (Project Mariner). Las aplicaciones empresariales incluyen pruebas de QA automatizadas, entrada de datos en sistemas ERP heredados y reemplazo de bots RPA frágiles. Los desafíos de seguridad—particularmente prevenir que contenido web malicioso secuestre el agente a través de inyección de prompts incrustada en texto de página visible—siguen siendo un área de investigación activa.