3DNews AI→ original

Google Gemini 3.5 Flash ya puede operar el ordenador en lugar del usuario

Google añadió a Gemini 3.5 Flash la función Computer Use: ahora el modelo opera el ordenador en lugar del usuario, hace clic en la pantalla, completa…

Procesado por IA desde 3DNews AI; editado por Hamidun News
Google Gemini 3.5 Flash ya puede operar el ordenador en lugar del usuario
Fuente: 3DNews AI. Collage: Hamidun News.
◐ Escuchar artículo

Google Gemini 3.5 Flash ha recibido la funcionalidad Computer Use —la capacidad de controlar autónomamente una computadora: presionar botones, rellenar formularios, cambiar entre aplicaciones y realizar tareas de múltiples pasos sin intervención humana. Google la posiciona como una herramienta corporativa para automatizar procesos operacionales, accesible a través de la plataforma en la nube Vertex AI.

Cómo Funciona el Control de la Computadora

El principio se asemeja al trabajo de un operador en una pantalla: el modelo recibe una captura de pantalla, analiza la interfaz, determina la siguiente acción—un clic, entrada de texto, desplazamiento de página—y repite el ciclo hasta completar la tarea. Gemini 3.5 Flash ve la pantalla de la misma manera que un humano, pero actúa más rápido y sin fatiga.

La elección de la versión Flash es deliberada: es el modelo más rápido en la línea Gemini 3.5. Para tareas de agentes con largas cadenas de acciones secuenciales, la velocidad de respuesta es crítica—un agente lento acumula retrasos en cada paso, y escenarios como automatizar decenas de formularios se convierten en procesos de varias horas.

Flash resuelve este problema a través de baja latencia.

Entre las capacidades declaradas:

  • Navegación del navegador e interacción con formularios web
  • Control de aplicaciones de escritorio a través de GUI
  • Ejecución de tareas de varios pasos sin intervención del usuario
  • Funcionamiento a través de Vertex AI con control de acceso corporativo
  • Registro de acciones para auditoría y cumplimiento de seguridad

Para Quién Es y Cómo Obtener Acceso

Google divide el desarrollo de Gemini en dos direcciones. La primera es integración profunda con Workspace: un asistente inteligente en Gmail, Docs, Sheets y Slides que ayuda a una amplia audiencia sin conocimientos técnicos especiales. La segunda son capacidades de agente para el sector corporativo, al cual pertenece Computer Use. La funcionalidad está disponible a través de Vertex AI—la plataforma en la nube corporativa de Google. Las empresas podrán integrar agentes en sus propios procesos: automatizar el trabajo con sistemas legados sin APIs, delegar operaciones rutinarias del navegador a equipos de finanzas o RH y construir herramientas internas basadas en Gemini con gestión y registro centralizados.

Es importante entender que Computer Use no es simplemente un "clicador automático". Estamos hablando de un escenario de agente completo donde el modelo planifica independientemente una cadena de pasos y se adapta a los resultados: si una página se carga con un retraso o aparece un pop-up inesperado—el agente lo ve y reacciona.

Competencia por el Control de la Pantalla

El mercado de agentes de IA que trabajan con interfaces de computadora se ha vuelto significativamente más competitivo durante el año pasado. Anthropic lanzó Claude Computer Use en octubre de 2024, OpenAI lanzó Operator a principios de 2025, y Microsoft integró escenarios de agentes en Copilot Studio para Azure. Ahora Google se une a ellos con su implementación basada en uno de los modelos más rápidos. La competencia se desarrolla en varios ejes: precisión del reconocimiento de interfaz, velocidad de ejecución de cadenas de acciones, seguridad y capacidades de auditoría corporativa.

Google tiene una ventaja estructural que los competidores no tienen: Gemini opera en un ecosistema donde Gmail, Drive y Calendar ya están desplegados. Un agente que simultáneamente ve la pantalla y tiene acceso nativo a los datos corporativos a través de API obtiene un nivel fundamentalmente diferente de contexto—sin carga de prompt adicional.

"Estamos construyendo IA que no solo responde preguntas, sino que realiza trabajo", —tal es la posición general de

Google respecto a la estrategia de Gemini como plataforma de agentes.

Lo Que Esto Significa

El control del computador está transitando de capacidades experimentales a una funcionalidad de producto estándar en todos los proveedores de IA principales. Para los negocios, esto significa automatización real de tareas operacionales ahora—sin reescribir sistemas legados, sin desarrollar integraciones API para cada escenario y sin involucrar desarrolladores para automatización básica. La pregunta ya no es "¿funcionará?", sino "¿quién lo implementará más rápido?".

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Necesitas IA funcionando dentro de tu empresa — no solo en tu feed de noticias?

Construyo IA en producción para empresas — CRM a medida, herramientas internas, agentes autónomos, automatización de procesos. Tuya, adaptada a tu proceso, sin coste por usuario. Creado por Zhemal Khamidun, CPO de AlpinaGPT (plataforma de IA, 6.000+ usuarios).

¿Qué te parece?
Cargando comentarios…