Bloomberg Tech→ original

METR Explique Comment l'IA S'Approche de l'Exécution Autonome de Tâches Complexes Pendant Près de 12 Heures

METR a discuté sur Bloomberg pourquoi le marché de l'IA se concentre de moins en moins sur les réponses polies et de plus en plus sur la capacité des modèles…

Traité par IA depuis Bloomberg Tech ; édité par Hamidun News
METR Explique Comment l'IA S'Approche de l'Exécution Autonome de Tâches Complexes Pendant Près de 12 Heures
Source : Bloomberg Tech. Collage: Hamidun News.
◐ Écouter l'article

Dans une vidéo Bloomberg Tech basée sur l'épisode du podcast Odd Lots du 25 avril 2026, des représentants de l'organisation de recherche METR ont expliqué pourquoi la question principale autour de l'IA ne semble plus « le modèle peut-il répondre à une requête ? », mais « combien de temps est-il capable de gérer seul une tâche complexe à plusieurs étapes ? ».

Selon leur évaluation, Claude Opus 4.6 approche déjà d'un niveau où un agent peut accomplir un travail avec une probabilité notable qui prendrait à un humain près de 12 heures. METR, ou Model Evaluation and Threat Research, mesure à quel point les modèles de pointe ont progressé dans l'opération autonome.

Le président de l'organisation, Chris Painter, et le chercheur Joel Becker ont discuté non pas de simples repères de connaissances, mais de tâches où le modèle doit planifier, utiliser des outils, écrire et vérifier du code, corriger des erreurs et mener le travail à sa conclusion sans assistance humaine constante. Ce mode est précisément ce qui importe pour évaluer l'utilité réelle des systèmes d'agents et leurs risques associés. La métrique clé de METR est l'horizon temporel.

Ce n'est pas le temps que l'IA consacre à une tâche, mais la complexité de la tâche mesurée par le temps qu'un humain qualifié y consacrerait. Sur le tableau d'affichage officiel de METR, cette évaluation s'appuie sur plus d'une centaine de tâches provenant des domaines du développement, de l'apprentissage automatique et de la cybersécurité. Pour chaque modèle, les chercheurs effectuent plusieurs exécutions indépendantes, comparent le résultat aux scores de référence humains, puis construisent une courbe de probabilité de réussite.

Le processus en soi prend non pas des heures, mais au minimum une à deux semaines de temps calendaire, car l'équipe doit sélectionner l'infrastructure de travail, vérifier les défaillances, écarter les tentatives de contourner l'évaluation et vérifier manuellement les exécutions contestées. Si un modèle a un horizon de 50 pour cent sur plusieurs heures, cela signifie qu'il réussit les tâches de cette complexité environ la moitié du temps. C'est précisément pour cette raison que la phrase « près de 12 heures pour Claude Opus 4.

6 » semble bien plus sérieuse qu'un simple record de test. Il ne s'agit pas d'une réponse de chat bien présentée, mais de la capacité à maintenir le contexte, diviser le travail en étapes et ne pas s'effondrer après le premier échec. Dans la mise à jour de janvier Time Horizon 1.

1, METR a également noté que, historiquement, l'horizon des capacités des modèles de pointe doublait environ tous les sept mois, et dans les mesures des modèles après 2023, le rythme semblait encore plus élevé. Parallèlement, METR elle-même avertit séparément : ces chiffres ne peuvent pas être directement traduits en disponibilité à remplacer les humains dans n'importe quel travail intellectuel. Son ensemble de tâches se compose principalement de cas d'ingénierie et de recherche bien spécifiés avec vérification claire des résultats.

Dans le travail ordinaire, il y a trop de contexte caché, de communication et de critères de succès ambigus. Une autre conclusion découle également de la discussion. Quand on dit que l'IA commence à travailler ensemble, en pratique, cela signifie de plus en plus une combinaison d'un modèle, d'outils et d'une boucle de contrôle, pas simplement un autre chatbot dans la fenêtre d'à côté.

Les systèmes d'agents modernes savent déjà appeler des éditeurs de code, exécuter des tests, rechercher des informations et transmettre les résultats intermédiaires à l'étape suivante. Plus l'horizon de travail autonome du modèle de base est long, plus ces chaînes deviennent utiles et plus il devient difficile pour un humain de maintenir un contrôle total sur chaque action. C'est pourquoi METR considère la croissance de l'horizon non seulement comme un progrès produit, mais aussi comme un signal pour l'évaluation des risques, notamment les scénarios où les systèmes gagnent trop d'autonomie.

L'importance pratique de cette discussion est que le marché de l'IA se déplace progressivement de la comparaison des réponses à la comparaison de l'autonomie de travail. Pour les entreprises, c'est une question de savoir quels processus peuvent déjà être délégués aux agents. Pour les développeurs de modèles, c'est une question de la rapidité avec laquelle la capacité réelle des systèmes à mener les longues tâches à bien s'améliore.

Et pour les régulateurs et les chercheurs en sécurité, c'est un indicateur précoce du moment où la conversation sur l'IA autonome cessera d'être théorique et deviendra une réalité opérationnelle.

ZK
Hamidun News
Actualités IA sans bruit. Sélection éditoriale quotidienne de plus de 400 sources. Produit de Zhemal Khamidun, Head of AI chez Alpina Digital.

Vous voulez cesser de lire sur l'IA et commencer à l'utiliser?

AI News est un fil d'actualité IA. Hamidun Academy vous apprend à utiliser l'IA dans votre travail.

Qu'en pensez-vous ?
Chargement des commentaires…