METR Explica Cómo la IA se Acerca a la Ejecución Autónoma de Tareas Complejas Durante Casi 12 Horas
METR discutió en Bloomberg por qué el mercado de IA se enfoca cada vez menos en respuestas pulidas y cada vez más en la capacidad de los modelos para…
Procesado por IA desde Bloomberg Tech; editado por Hamidun News
En un vídeo de Bloomberg Tech basado en el episodio del podcast Odd Lots del 25 de abril de 2026, representantes de la organización de investigación METR explicaron por qué la principal pregunta en torno a la IA ahora no suena como "¿puede el modelo responder a una consulta?", sino "¿cuánto tiempo es capaz de ejecutar autónomamente una tarea compleja multietapa?" Según su evaluación, Claude Opus 4.
6 ya se acerca a un nivel donde un agente puede completar un trabajo con probabilidad notable que le tomaría a un humano casi 12 horas. METR, o Model Evaluation and Threat Research, mide cuánto han avanzado los modelos líderes en la operación autónoma. El presidente de la organización, Chris Painter, y el investigador Joel Becker discutieron no sobre puntuaciones ordinarias de conocimiento, sino sobre tareas donde el modelo debe planificar, usar herramientas, escribir y verificar código, corregir errores y llevar el trabajo a la finalización sin indicaciones humanas constantes.
Este modo es precisamente lo que importa para evaluar la utilidad real de los sistemas de agentes y sus riesgos asociados. La métrica clave de METR es el horizonte temporal. No es el tiempo que la IA dedica a una tarea, sino la complejidad de la tarea medida por cuánto tiempo gastaría en ella un humano calificado.
En el panel oficial de METR, esta evaluación se construye sobre más de cien tareas de los dominios de desarrollo, aprendizaje automático y ciberseguridad. Para cada modelo, los investigadores ejecutan múltiples ejecuciones independientes, comparan el resultado con las puntuaciones de referencia humanas y luego construyen una curva de probabilidad de éxito. El proceso en sí toma no horas, sino al menos una o dos semanas de tiempo calendario, porque el equipo debe seleccionar la infraestructura de trabajo, verificar fallos, descartar intentos de eludir la evaluación y verificar manualmente las ejecuciones controvertidas.
Si un modelo tiene un horizonte del 50 por ciento de varias horas, significa que tiene éxito en tareas de esa complejidad aproximadamente la mitad de las veces. Es precisamente por eso que la frase sobre casi 12 horas para Claude Opus 4.6 suena notablemente más seria que otro récord de prueba.
No se trata de una respuesta de chat pulida, sino de la capacidad de mantener el contexto, dividir el trabajo en etapas y no desmoronarse después del primer fracaso. En la actualización de enero Time Horizon 1.1 de METR, la organización también señaló que históricamente el horizonte de capacidad de los modelos líderes se duplicaba aproximadamente cada siete meses, y en las mediciones de modelos posteriores a 2023 el ritmo se veía aún más alto.
Al mismo tiempo, METR advierte por separado: estas cifras no pueden traducirse directamente en disponibilidad para reemplazar humanos en ningún trabajo intelectual. Su conjunto de tareas consiste principalmente en casos bien especificados de ingeniería e investigación con verificación clara de resultados. En el trabajo ordinario hay demasiado contexto oculto, comunicación y criterios de éxito ambiguos.
Otra conclusión también se deduce de la discusión. Cuando se dice que la IA comienza a trabajar junta, en la práctica cada vez más significa una combinación de modelo, herramientas y bucle de control, no simplemente otro chatbot en la ventana contigua. Los sistemas de agentes modernos ya saben cómo llamar a editores de código, ejecutar pruebas, buscar información y pasar resultados intermedios al siguiente paso.
Cuanto más largo sea el horizonte de trabajo autónomo del modelo base, más útiles se vuelven estas cadenas y más difícil es para un humano mantener el control total sobre cada acción. Por eso METR ve el crecimiento del horizonte no solo como progreso del producto, sino también como una señal para la evaluación de riesgos, incluidos escenarios donde los sistemas obtienen demasiada autonomía. El significado práctico de esta discusión es que el mercado de IA se está desplazando gradualmente de comparar respuestas a comparar autonomía de trabajo.
Para las empresas, esta es una pregunta sobre qué procesos ya pueden delegarse a agentes. Para los desarrolladores de modelos, es una pregunta sobre qué tan rápido crece la capacidad real de los sistemas para llevar tareas largas a la finalización. Y para reguladores e investigadores de seguridad, es un indicador temprano del momento en que la conversación sobre IA autónoma dejará de ser teoría y se convertirá en realidad operativa.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.