Habr AI→ оригинал

DeepMind propuso diez escalas cognitivas para medir el progreso hacia la AGI

Google DeepMind publicó "Measuring Progress Toward AGI" — una continuación de la clasificación de niveles de AGI de 2023. En lugar de una calificación única, pr

DeepMind propuso diez escalas cognitivas para medir el progreso hacia la AGI
Источник: Habr AI. Коллаж: Hamidun News.

Google DeepMind опубликовал работу «Measuring Progress Toward AGI» — попытку дать индустрии инструмент реального измерения прогресса к AGI, а не очередную классификацию без возможности проверки.

Откуда взялась проблема

Почти три года назад DeepMind опубликовал «Levels of AGI» — систему из пяти уровней интеллекта (от начального до сверхчеловеческого) и шести уровней автономии (от простого инструмента до полностью самостоятельного агента). Аналогия с уровнями автономного вождения оказалась удачной: структурированно, наглядно, удобно для объяснения инвесторам и журналистам. Индустрия получила общий словарь — что-то вроде единой терминологии для разговора об AGI.

Но у классификации обнаружился фундаментальный изъян: не было никакого инструмента, чтобы проверить, где реально находится та или иная система. Каждая компания могла назвать свою модель «level 2» или «level 3», и ни у кого не было способа это опровергнуть. «AGI» превратилось в маркетинговый ярлык — удобный для пресс-релизов и привлечения инвестиций, но совершенно неудобный для науки.

Именно эту проблему и пытается решить новая работа.

Десять шкал вместо одного скора

Работа, вышедшая в марте 2026-го, предлагает принципиально иной подход. Вместо единого итогового рейтинга — десять отдельных шкал, каждая из которых измеряет конкретный аспект когнитивных способностей. При этом шкалы независимы: система может показать высокий результат в рассуждениях, но низкий в адаптации к новым задачам — и это несоответствие будет явно видно, а не скрыто за усреднённым значением.

Такой подход даёт многомерный портрет системы, а не одно число. Принципиальное отличие от привычного бенчмаркинга: шкалы строятся не на датасетах и задачниках, а на инструментарии когнитивной психологии — науки, которая десятилетиями исследовала интеллект у реальных людей и разработала методики, устойчивые к тренировочным эффектам. В числе измеряемых аспектов: Рабочая память и удержание контекста Планирование и многошаговое рассуждение Перенос знаний на новые домены Обучение на малом числе примеров (few-shot) Мета-когниция — понимание границ собственных знаний Причинно-следственное рассуждение * Адаптация к данным вне обучающего распределения Авторы позиционируют фреймворк как отправную точку для дискуссии, а не финальный стандарт.

Список шкал открыт для расширения.

Почему это важнее бенчмарков

До сих пор прогресс в AI измерялся косвенно: MMLU, HumanEval, ARC-Challenge, GSM8K. Проблема в том, что модели научились целенаправленно «переобучаться» на конкретные бенчмарки. Высокий скор на MMLU давно перестал быть надёжным показателем реальных рассуждений — и это известно всем в индустрии, но стандарты не меняются.

Когнитивно-психологический подход значительно сложнее обмануть. Если модель не умеет обобщать на принципиально новые задачи — никакое дообучение на тестовом наборе этого не скроет. Методики, разработанные для измерения интеллекта у людей, устойчивы к «натаскиванию» по самой своей природе.

Для инвесторов, корпоративных покупателей AI и регуляторов это потенциально означает конец эпохи, когда любая лаборатория могла объявить «прорыв к AGI» без возможности независимой проверки. Общие измеримые шкалы создают сравнимость между системами разных компаний, а значит — и подотчётность.

Что это значит

DeepMind сдвигает разговор об AGI с «у нас есть уровень N» к «вот чем конкретно это можно измерить». Это не ответ о сроках AGI и не гарантия консенсуса — разные лаборатории будут интерпретировать шкалы по-своему. Но это первый серьёзный шаг к общим стандартам оценки, сделанный на основе науки, а не маркетинга.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…