KDnuggets→ оригинал

Humanity's Last Exam: почему главный AI-бенчмарк от CAIS называют отвлечением

Humanity's Last Exam — 3000 вопросов PhD-уровня от Center for AI Safety и Scale AI — стал самым сложным AI-бенчмарком 2025 года. Лучшие модели набирают менее…

AI-обработка оригинала KDnuggets; редакция Hamidun News
Humanity's Last Exam: почему главный AI-бенчмарк от CAIS называют отвлечением
Источник: KDnuggets. Коллаж: Hamidun News.
◐ Слушать статью

Бенчмарк Humanity's Last Exam (HLE) с момента публикации в январе 2025 года стал одним из самых обсуждаемых инструментов оценки AI-систем — и одновременно одним из самых критикуемых. Аналитики KDnuggets собрали спектр экспертных мнений и пришли к выводу: тест скорее отвлекает сообщество от важного, чем даёт ему полезный ориентир.

Что такое Humanity's Last Exam

HLE создан совместно некоммерческой организацией Center for AI Safety (CAIS) и компанией Scale AI. Бенчмарк содержит 3000 вопросов PhD-уровня по более чем 100 академическим дисциплинам: математике, молекулярной биологии, классическим языкам, истории науки и десяткам других областей. Вопросы составлялись и верифицировались сотнями профессоров и аспирантов по всему миру.

Ключевые параметры:

  • Дата релиза — январь 2025 года
  • Авторы — Center for AI Safety и Scale AI
  • Объём — 3000 вопросов, 100+ дисциплин
  • Лучший результат на старте — около 18% у OpenAI o3
  • GPT-4o — около 3%, Claude 3.5 Sonnet — около 8%
  • Вопросы составлялись и проверялись сотнями учёных

Авторы преследовали понятную цель: продемонстрировать, что нынешние модели ещё далеко не достигли уровня экспертов-людей в самых сложных когнитивных задачах. В 2024–2025 годах публичные демонстрации AI нередко создавали иллюзию близкой AGI — HLE стал контраргументом: «смотрите, насколько ещё далеко».

Почему HLE называют отвлечением

Главная претензия критиков — нерелевантность. Тест проверяет знание редких академических фактов: малоизвестных теорем позапрошлого века, точных цитат из санскритских текстов, специфических биохимических реакций. Низкий балл модели по такому тесту не означает, что она плохо пишет код, анализирует данные, синтезирует исследования или помогает в медицинской диагностике.

Второй аргумент — хорошо известный в науке закон Гудхарта: как только показатель становится целью, он перестаёт быть надёжным измерителем. Если ведущие AI-лаборатории начнут — явно или неявно — оптимизировать модели под HLE, баллы вырастут без реального роста полезности продуктов. Именно это произошло с MMLU и рядом других бенчмарков до него.

«Нам нужны тесты, которые проверяют, насколько AI помогает мне

работать лучше, — а не насколько хорошо он знает академические редкости».

Третий пласт критики касается прозрачности: вопросы HLE засекречены, что делает независимое воспроизведение результатов и внешний аудит крайне затруднённым.

Что говорят сторонники HLE

Защитники бенчмарка апеллируют к исходному замыслу: HLE не претендовал на оценку продуктовой полезности. Его задача — измерить потолок текущих систем в когнитивно сложных областях, где человеческая экспертиза ещё не воспроизведена. С этой точки зрения тест справился: он охладил часть хайпа и предоставил журналистам, инвесторам и регуляторам наглядный аргумент против преждевременного объявления AGI.

Кроме того, создатели указывают: экстремально сложные тесты создают «запас прочности». Когда модели начнут набирать на HLE 50–70%, это будет уже подлинным сигналом тревоги — а не маркетинговым шумом.

Что это значит

Humanity's Last Exam выполнил свою первую задачу — показал пределы текущих AI-систем в академически сложных задачах. Но как долгосрочный ориентир прогресса он вызывает обоснованные сомнения: оптимизация под академические редкости не ведёт к реальной пользе. Полезная оценка AI-прогресса требует бенчмарков, проверяющих реальные сценарии — написание кода, анализ данных, медицинскую помощь, юридический разбор. Пока выбор ориентиров остаётся академическим, дискуссия о «подлинном уровне AI» рискует вращаться в собственном вакууме.

Частые вопросы

Какой результат показала OpenAI o3 на Humanity's Last Exam?

По данным релиза января 2025 года, OpenAI o3 набрала около 18% правильных ответов — лучший результат среди протестированных моделей на момент публикации. Большинство других топовых систем, включая GPT-4o и Claude 3.5 Sonnet, остались в диапазоне 3–8%.

Кто создал бенчмарк HLE и зачем?

Бенчмарк разработан совместно Center for AI Safety (CAIS) и Scale AI. Авторы стремились показать, что современные AI-системы ещё не достигли уровня лучших специалистов-людей в сложных когнитивных задачах, — и охладить завышенные ожидания вокруг AGI.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Хотите не читать про ИИ, а внедрить его?

«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.

Что вы думаете?
Загружаем комментарии…