Habr AI→ оригинал

DeepMind a proposé dix échelles cognitives pour mesurer les progrès vers l’AGI

Google DeepMind a publié "Measuring Progress Toward AGI" — une suite à la classification des niveaux d’AGI de 2023. Au lieu d’un classement unique, le framework

DeepMind a proposé dix échelles cognitives pour mesurer les progrès vers l’AGI
Источник: Habr AI. Коллаж: Hamidun News.

Google DeepMind опубликовал работу «Measuring Progress Toward AGI» — попытку дать индустрии инструмент реального измерения прогресса к AGI, а не очередную классификацию без возможности проверки.

Откуда взялась проблема

Почти три года назад DeepMind опубликовал «Levels of AGI» — систему из пяти уровней интеллекта (от начального до сверхчеловеческого) и шести уровней автономии (от простого инструмента до полностью самостоятельного агента). Аналогия с уровнями автономного вождения оказалась удачной: структурированно, наглядно, удобно для объяснения инвесторам и журналистам. Индустрия получила общий словарь — что-то вроде единой терминологии для разговора об AGI.

Но у классификации обнаружился фундаментальный изъян: не было никакого инструмента, чтобы проверить, где реально находится та или иная система. Каждая компания могла назвать свою модель «level 2» или «level 3», и ни у кого не было способа это опровергнуть. «AGI» превратилось в маркетинговый ярлык — удобный для пресс-релизов и привлечения инвестиций, но совершенно неудобный для науки.

Именно эту проблему и пытается решить новая работа.

Десять шкал вместо одного скора

Работа, вышедшая в марте 2026-го, предлагает принципиально иной подход. Вместо единого итогового рейтинга — десять отдельных шкал, каждая из которых измеряет конкретный аспект когнитивных способностей. При этом шкалы независимы: система может показать высокий результат в рассуждениях, но низкий в адаптации к новым задачам — и это несоответствие будет явно видно, а не скрыто за усреднённым значением.

Такой подход даёт многомерный портрет системы, а не одно число. Принципиальное отличие от привычного бенчмаркинга: шкалы строятся не на датасетах и задачниках, а на инструментарии когнитивной психологии — науки, которая десятилетиями исследовала интеллект у реальных людей и разработала методики, устойчивые к тренировочным эффектам. В числе измеряемых аспектов: Рабочая память и удержание контекста Планирование и многошаговое рассуждение Перенос знаний на новые домены Обучение на малом числе примеров (few-shot) Мета-когниция — понимание границ собственных знаний Причинно-следственное рассуждение * Адаптация к данным вне обучающего распределения Авторы позиционируют фреймворк как отправную точку для дискуссии, а не финальный стандарт.

Список шкал открыт для расширения.

Почему это важнее бенчмарков

До сих пор прогресс в AI измерялся косвенно: MMLU, HumanEval, ARC-Challenge, GSM8K. Проблема в том, что модели научились целенаправленно «переобучаться» на конкретные бенчмарки. Высокий скор на MMLU давно перестал быть надёжным показателем реальных рассуждений — и это известно всем в индустрии, но стандарты не меняются.

Когнитивно-психологический подход значительно сложнее обмануть. Если модель не умеет обобщать на принципиально новые задачи — никакое дообучение на тестовом наборе этого не скроет. Методики, разработанные для измерения интеллекта у людей, устойчивы к «натаскиванию» по самой своей природе.

Для инвесторов, корпоративных покупателей AI и регуляторов это потенциально означает конец эпохи, когда любая лаборатория могла объявить «прорыв к AGI» без возможности независимой проверки. Общие измеримые шкалы создают сравнимость между системами разных компаний, а значит — и подотчётность.

Что это значит

DeepMind сдвигает разговор об AGI с «у нас есть уровень N» к «вот чем конкретно это можно измерить». Это не ответ о сроках AGI и не гарантия консенсуса — разные лаборатории будут интерпретировать шкалы по-своему. Но это первый серьёзный шаг к общим стандартам оценки, сделанный на основе науки, а не маркетинга.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…