Bloomberg Tech→ оригинал

METR объяснила, как ИИ подходят к автономному выполнению сложных задач почти на 12 часов

METR в эфире Bloomberg объяснила, почему рынок ИИ все меньше смотрит на красивые ответы и все больше — на способность моделей доводить сложные задачи до конца б

METR объяснила, как ИИ подходят к автономному выполнению сложных задач почти на 12 часов
Источник: Bloomberg Tech. Коллаж: Hamidun News.

В ролике Bloomberg Tech, основанном на выпуске подкаста Odd Lots от 25 апреля 2026 года, представители исследовательской организации METR объяснили, почему главный вопрос вокруг ИИ теперь звучит не как может ли модель ответить на запрос, а как долго она способна самостоятельно тянуть сложную многошаговую задачу. По их оценке, Claude Opus 4.6 уже подбирается к уровню, где агент может с заметной вероятностью завершить работу, которая у человека заняла бы почти 12 часов.

METR, или Model Evaluation and Threat Research, занимается измерением того, насколько далеко продвинулись передовые модели в автономной работе. Президент организации Крис Пейнтер и исследователь Джоэл Бекер обсуждали не обычные бенчмарки на знание фактов, а задачи, где модель должна планировать, использовать инструменты, писать и проверять код, исправлять ошибки и доводить дело до результата без постоянных подсказок человека. Именно такой режим важен для оценки реальной полезности агентных систем и связанных с ними рисков.

Ключевая метрика METR — time horizon. Это не время, которое ИИ проводит за задачей, а сложность задачи, измеренная через то, сколько времени на нее потратил бы квалифицированный человек. На официальной панели METR эта оценка строится по более чем сотне заданий из областей разработки, машинного обучения и кибербезопасности.

Для каждой модели исследователи запускают несколько независимых прогонов, сравнивают результат с человеческими базовыми оценками и затем строят кривую вероятности успеха. Сам процесс занимает не часы, а как минимум одну-две недели календарного времени, потому что команде приходится подбирать рабочую обвязку, проверять сбои, отсекать попытки обойти оценку и перепроверять спорные прогоны вручную. Если модель имеет 50-процентный горизонт в несколько часов, это значит, что на задачах такой сложности она справляется примерно в половине случаев.

Именно поэтому фраза о почти 12 часах для Claude Opus 4.6 звучит заметно серьезнее, чем очередной рекорд в тестах. Речь идет не о красивом ответе в чате, а о способности удерживать контекст, разбивать работу на этапы и не разваливаться после первой неудачи.

В январском обновлении Time Horizon 1.1 METR также писала, что исторически горизонт возможностей передовых моделей удваивался примерно каждые семь месяцев, а в замерах для моделей после 2023 года темп выглядел еще выше. При этом сама METR отдельно предупреждает: такие цифры нельзя напрямую переводить в готовность заменить человека на любой интеллектуальной работе.

Их набор задач в основном состоит из хорошо специфицированных инженерных и исследовательских кейсов с понятной проверкой результата. В обычной работе слишком много скрытого контекста, общения и неоднозначных критериев успеха. Из обсуждения следует и другой вывод.

Когда говорят о том, что ИИ начинают работать вместе, на практике это все чаще означает связку модели, инструментов и управляющего контура, а не просто второй чат-бот в соседнем окне. Современные агентные системы уже умеют вызывать редакторы кода, запускать тесты, искать информацию и передавать промежуточные результаты следующему шагу. Чем длиннее горизонт автономной работы у базовой модели, тем полезнее становятся такие цепочки и тем труднее человеку удерживать полный контроль над каждым действием.

Поэтому METR рассматривает рост горизонта не только как продуктовый прогресс, но и как сигнал для оценки рисков, включая сценарии, где системы получают слишком много самостоятельности. Практический смысл этой дискуссии в том, что рынок ИИ постепенно смещается от сравнения ответов к сравнению рабочей автономности. Для компаний это вопрос о том, какие процессы уже можно отдавать агентам.

Для разработчиков моделей это вопрос о том, как быстро растет реальная способность систем доводить длинные задачи до конца. А для регуляторов и исследователей безопасности это ранний индикатор того момента, когда разговор об автономных ИИ перестанет быть теорией и станет операционной реальностью.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…