DeepMind предложил десять когнитивных шкал для оценки прогресса к AGI
Google DeepMind опубликовал «Measuring Progress Toward AGI» — продолжение классификации уровней AGI 2023 года. Вместо единого рейтинга — десять независимых шкал

Google DeepMind опубликовал работу «Measuring Progress Toward AGI» — попытку дать индустрии инструмент реального измерения прогресса к AGI, а не очередную классификацию без возможности проверки.
Откуда взялась проблема
Почти три года назад DeepMind опубликовал «Levels of AGI» — систему из пяти уровней интеллекта (от начального до сверхчеловеческого) и шести уровней автономии (от простого инструмента до полностью самостоятельного агента). Аналогия с уровнями автономного вождения оказалась удачной: структурированно, наглядно, удобно для объяснения инвесторам и журналистам. Индустрия получила общий словарь — что-то вроде единой терминологии для разговора об AGI.
Но у классификации обнаружился фундаментальный изъян: не было никакого инструмента, чтобы проверить, где реально находится та или иная система. Каждая компания могла назвать свою модель «level 2» или «level 3», и ни у кого не было способа это опровергнуть. «AGI» превратилось в маркетинговый ярлык — удобный для пресс-релизов и привлечения инвестиций, но совершенно неудобный для науки.
Именно эту проблему и пытается решить новая работа.
Десять шкал вместо одного скора
Работа, вышедшая в марте 2026-го, предлагает принципиально иной подход. Вместо единого итогового рейтинга — десять отдельных шкал, каждая из которых измеряет конкретный аспект когнитивных способностей. При этом шкалы независимы: система может показать высокий результат в рассуждениях, но низкий в адаптации к новым задачам — и это несоответствие будет явно видно, а не скрыто за усреднённым значением.
Такой подход даёт многомерный портрет системы, а не одно число. Принципиальное отличие от привычного бенчмаркинга: шкалы строятся не на датасетах и задачниках, а на инструментарии когнитивной психологии — науки, которая десятилетиями исследовала интеллект у реальных людей и разработала методики, устойчивые к тренировочным эффектам. В числе измеряемых аспектов: Рабочая память и удержание контекста Планирование и многошаговое рассуждение Перенос знаний на новые домены Обучение на малом числе примеров (few-shot) Мета-когниция — понимание границ собственных знаний Причинно-следственное рассуждение * Адаптация к данным вне обучающего распределения Авторы позиционируют фреймворк как отправную точку для дискуссии, а не финальный стандарт.
Список шкал открыт для расширения.
Почему это важнее бенчмарков
До сих пор прогресс в AI измерялся косвенно: MMLU, HumanEval, ARC-Challenge, GSM8K. Проблема в том, что модели научились целенаправленно «переобучаться» на конкретные бенчмарки. Высокий скор на MMLU давно перестал быть надёжным показателем реальных рассуждений — и это известно всем в индустрии, но стандарты не меняются.
Когнитивно-психологический подход значительно сложнее обмануть. Если модель не умеет обобщать на принципиально новые задачи — никакое дообучение на тестовом наборе этого не скроет. Методики, разработанные для измерения интеллекта у людей, устойчивы к «натаскиванию» по самой своей природе.
Для инвесторов, корпоративных покупателей AI и регуляторов это потенциально означает конец эпохи, когда любая лаборатория могла объявить «прорыв к AGI» без возможности независимой проверки. Общие измеримые шкалы создают сравнимость между системами разных компаний, а значит — и подотчётность.
Что это значит
DeepMind сдвигает разговор об AGI с «у нас есть уровень N» к «вот чем конкретно это можно измерить». Это не ответ о сроках AGI и не гарантия консенсуса — разные лаборатории будут интерпретировать шкалы по-своему. Но это первый серьёзный шаг к общим стандартам оценки, сделанный на основе науки, а не маркетинга.