Habr AI→ оригинал

Почему бенчмарки AGI никогда не будут объективными

Учёные пытаются создать объективные тесты для AGI, заменив устаревший тест Тьюринга. Но есть проблема: нет единого определения интеллекта даже для людей (70+ ва

Почему бенчмарки AGI никогда не будут объективными
Источник: Habr AI. Коллаж: Hamidun News.
◐ Слушать статью

Тест Тьюринга, когда-то казавшийся идеальной проверкой на интеллект, теперь явно устарел. Исследователи ищут новые способы оценить, достигла ли система уровня сильного искусственного интеллекта — но сталкиваются с неожиданной преградой.

Почему тест

Тьюринга больше не работает Когда Алан Тьюринг предложил свой известный тест в 1950 году, идея была проста: если машина может убедить человека, что она человек, значит она мыслит. Семьдесят лет спустя современные LLM легко проходят этот тест — но это вовсе не означает, что они интеллектуальны в смысле AGI. Исследователи признают: нужны новые критерии. Конференции типа IEEE ищут свежие бенчмарки для оценки сильного ИИ. Проблема в том, что критерии должны быть объективными — а это намного сложнее, чем казалось.

Семьдесят определений интеллекта

Первая преграда: учёные сами не могут договориться, что такое интеллект. Существует минимум 70 различных научных определений человеческого интеллекта. Одни считают интеллект способностью адаптироваться, другие — скоростью обработки информации, третьи — творчеством. Если мы не можем объективно определить интеллект даже в собственном виде, как создать тест для его оценки в машине?

  • Определение через IQ (логика и арифметика) Определение через адаптивность (как быстро учится в новой среде) Определение через контекст (понимание нюансов и культуры) * Определение через творчество (оригинальные идеи и решения) ## Парадокс сознания в нейросетях Вторая преграда — бесконечные научные дебаты о том, могут ли LLM развить сознание. Десятки работ на arxiv изучают, есть ли «внутренняя жизнь» у больших языковых моделей. Но это странный спор. Нейробиология и психология давно установили: сознание у человека — скорее помеха, чем инструмент мышления. Самые эффективные мыслительные процессы идут на подсознательном уровне. Когда вы сосредоточиваетесь на задаче (активируется сознание), вы часто начинаете медлиться и ошибаться. Именно поэтому спортсмены говорят о «потоке» — состояния, когда сознание выключается.
Вмешательство самосознания только мешает решению сложных проблем — установлено в научной литературе.

Если когда-нибудь у модели возникнет самосознание, инженеры просто удалят этот баг — чтобы система работала быстрее и точнее, как сейчас.

Что это значит

Вывод парадоксален: оценить AGI объективно невозможно не потому, что ИИ слишком умный, а потому что мы не можем договориться даже о критериях для собственного интеллекта. Любой бенчмарк будет отражать субъективный выбор того, что считать «интеллектом» — и этим выбором никто не будет доволен.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Что вы думаете?
Загружаем комментарии…