DeepMind Blog→ оригинал

Google DeepMind propuso un marco cognitivo para medir el progreso hacia AGI

Google DeepMind propuso una nueva forma de hablar del progreso hacia AGI: a través de un conjunto de capacidades cognitivas, y no de benchmarks aislados. Junto

Google DeepMind propuso un marco cognitivo para medir el progreso hacia AGI
Источник: DeepMind Blog. Коллаж: Hamidun News.

Google DeepMind представила научную рамку, которая должна помочь измерять прогресс на пути к AGI не по отдельным бенчмаркам, а по набору когнитивных способностей. Вместе с этим компания запустила Kaggle-хакатон, чтобы исследователи собрали практические тесты для такой системы оценки.

Зачем нужна рамка В

Google DeepMind исходят из простой проблемы: об AGI говорят почти все крупные лаборатории, но общепринятого способа измерить, насколько системы к нему приблизились, до сих пор нет. Отдельные тесты по математике, коду или генерации текста показывают только фрагменты картины. Если цель — понять общий уровень интеллекта модели, то и измерение должно смотреть шире, чем один набор задач или один удачный демо-сценарий.

В новой работе под названием Measuring Progress Toward AGI: A Cognitive Taxonomy команда предлагает опереться на когнитивную науку, психологию и нейронауки. Логика такая: если AGI понимается как достаточно общий интеллект, то и оценивать его нужно через базовые когнитивные функции, а не только через прикладные навыки. Это не готовая шкала «AGI или не AGI», а научный каркас, на который можно навешивать конкретные тесты.

«Когнитивная наука — важная часть пазла», — пишут авторы.

Из чего состоит подход В центре рамки — десять способностей, которые, по гипотезе

DeepMind, важны для общего интеллекта AI-систем. В список вошли восприятие, генерация, внимание, обучение, память, рассуждение, метакогниция, исполнительные функции, решение задач и социальное познание. Такой набор важен тем, что он охватывает не только привычные сильные стороны современных моделей, вроде генерации текста или логических цепочек, но и более сложные вещи — например, способность отслеживать собственные ошибки, гибко переключаться между целями и корректно работать с социальным контекстом.

Чтобы превратить эту таксономию в измеримый инструмент, DeepMind предлагает трёхшаговый протокол. Сначала AI-системы нужно прогонять через широкую линейку когнитивных задач по каждой способности, причём на отложенных тестовых наборах, чтобы снизить риск загрязнения данными. Затем для тех же задач собирается человеческий базовый уровень на демографически репрезентативной выборке взрослых.

После этого результаты моделей сопоставляются не с абстрактным «проходным баллом», а с распределением человеческих результатов по каждой способности. Идея здесь в том, что сравнение с человеком должно быть не общим лозунгом, а аккуратной эмпирикой. Модель может быть очень сильной в рассуждении и памяти, но заметно уступать в обучении на новых инструкциях или в социальной интерпретации.

В таком случае разговор о прогрессе к AGI становится более предметным: видно не только, где система впечатляет, но и где именно у неё остаются структурные провалы.

Хакатон на Kaggle Одной публикацией DeepMind не ограничивается.

Вместе с Kaggle компания запустила хакатон Measuring progress toward AGI: Cognitive abilities, чтобы сообщество помогло построить недостающие оценки на практике. Участникам предлагают использовать новую платформу Kaggle Community Benchmarks и тестировать свои идеи на линейке передовых моделей. Фокус сделали на тех областях, где разрыв в оценках сейчас особенно заметен.

  • Обучение Метакогниция Внимание Исполнительные функции Социальное познание Призовой фонд составляет $200 000. По условиям DeepMind, лучшие две работы в каждом из пяти треков получат по $10 000, а ещё четыре сильнейшие заявки вне зависимости от трека — по $25 000. Приём работ открыт с 17 марта 2026 года по 16 апреля 2026 года, а итоги компания обещает объявить 1 июня 2026 года. Это важная деталь: DeepMind не просто публикует рамку в виде теории, а пытается быстро собрать вокруг неё экосистему проверок и внешних экспериментов.

Что это значит

Google DeepMind предлагает смотреть на прогресс в AI не как на гонку отдельных рекордов, а как на системное сравнение когнитивных профилей моделей с человеческим уровнем. Если подход приживётся, у индустрии появится более внятный язык для разговора о «приближении к AGI» — с разложением по способностям, понятными пробелами и воспроизводимыми тестами, а не только с громкими заявлениями о следующем прорыве.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…