DeepMind предложил десять когнитивных шкал для оценки прогресса к AGI

Google DeepMind опубликовал «Measuring Progress Toward AGI» — продолжение классификации уровней AGI 2023 года. Вместо единого рейтинга — десять независимых шкал на основе инструментов когнитивной психологии, а не датасетов. Впервые у индустрии появляется способ объективно сравнивать AI-системы — а не просто принимать на веру самооценки лабораторий.

ХЖ

Хамидун Жемал

AI‑мониторинг · Habr AI

30 апр. 2026 г.· 2 мин

AI-обработка оригинала Habr AI; редакция Hamidun News

DeepMind предложил десять когнитивных шкал для оценки прогресса к AGI — Источник: Habr AI. Коллаж: Hamidun News.

◐ Слушать статью

Google DeepMind опубликовал работу «Measuring Progress Toward AGI» — попытку дать индустрии инструмент реального измерения прогресса к AGI, а не очередную классификацию без возможности проверки.

Откуда взялась проблема

Почти три года назад DeepMind опубликовал «Levels of AGI» — систему из пяти уровней интеллекта (от начального до сверхчеловеческого) и шести уровней автономии (от простого инструмента до полностью самостоятельного агента). Аналогия с уровнями автономного вождения оказалась удачной: структурированно, наглядно, удобно для объяснения инвесторам и журналистам. Индустрия получила общий словарь — что-то вроде единой терминологии для разговора об AGI.

Но у классификации обнаружился фундаментальный изъян: не было никакого инструмента, чтобы проверить, где реально находится та или иная система. Каждая компания могла назвать свою модель «level 2» или «level 3», и ни у кого не было способа это опровергнуть. «AGI» превратилось в маркетинговый ярлык — удобный для пресс-релизов и привлечения инвестиций, но совершенно неудобный для науки.

Именно эту проблему и пытается решить новая работа.

Десять шкал вместо одного скора

Работа, вышедшая в марте 2026-го, предлагает принципиально иной подход. Вместо единого итогового рейтинга — десять отдельных шкал, каждая из которых измеряет конкретный аспект когнитивных способностей. При этом шкалы независимы: система может показать высокий результат в рассуждениях, но низкий в адаптации к новым задачам — и это несоответствие будет явно видно, а не скрыто за усреднённым значением.

Такой подход даёт многомерный портрет системы, а не одно число. Принципиальное отличие от привычного бенчмаркинга: шкалы строятся не на датасетах и задачниках, а на инструментарии когнитивной психологии — науки, которая десятилетиями исследовала интеллект у реальных людей и разработала методики, устойчивые к тренировочным эффектам. В числе измеряемых аспектов: Рабочая память и удержание контекста Планирование и многошаговое рассуждение Перенос знаний на новые домены Обучение на малом числе примеров (few-shot) Мета-когниция — понимание границ собственных знаний Причинно-следственное рассуждение * Адаптация к данным вне обучающего распределения Авторы позиционируют фреймворк как отправную точку для дискуссии, а не финальный стандарт.

Список шкал открыт для расширения.

Почему это важнее бенчмарков

До сих пор прогресс в AI измерялся косвенно: MMLU, HumanEval, ARC-Challenge, GSM8K. Проблема в том, что модели научились целенаправленно «переобучаться» на конкретные бенчмарки. Высокий скор на MMLU давно перестал быть надёжным показателем реальных рассуждений — и это известно всем в индустрии, но стандарты не меняются.

Когнитивно-психологический подход значительно сложнее обмануть. Если модель не умеет обобщать на принципиально новые задачи — никакое дообучение на тестовом наборе этого не скроет. Методики, разработанные для измерения интеллекта у людей, устойчивы к «натаскиванию» по самой своей природе.

Для инвесторов, корпоративных покупателей AI и регуляторов это потенциально означает конец эпохи, когда любая лаборатория могла объявить «прорыв к AGI» без возможности независимой проверки. Общие измеримые шкалы создают сравнимость между системами разных компаний, а значит — и подотчётность.

Что это значит

DeepMind сдвигает разговор об AGI с «у нас есть уровень N» к «вот чем конкретно это можно измерить». Это не ответ о сроках AGI и не гарантия консенсуса — разные лаборатории будут интерпретировать шкалы по-своему. Но это первый серьёзный шаг к общим стандартам оценки, сделанный на основе науки, а не маркетинга.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 50+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

🎓 Academy — 7 дней бесплатно Бесплатная консультация

Главное из мира ИИ — раз в неделю

7 ключевых событий недели, отобранных вручную. Без шума, репостов и пресс-релизов.

Готово! Проверьте почту — мы отправили подтверждение.