MIT Technology Review: Why Standard AI Tests No Longer Show Real-World Value
MIT Technology Review writes that conventional AI benchmarks measure models in a vacuum and thus poorly predict real-world impact. The article illustrates with

MIT Technology Review пишет, что привычные бенчмарки ИИ всё хуже показывают, как системы ведут себя в реальной работе. Модель может выигрывать в изолированном тесте и всё равно тормозить команду, если её встроить в живой процесс.
Почему тесты расходятся
Десятилетиями прогресс в ИИ мерили через соревнование «машина против человека». Подход удобный: дать модели шахматы, задачи по математике, кодинг или эссе, а потом сравнить её результат с тем, как справляется отдельный человек. Такие тесты легко стандартизировать, превращать в рейтинги и использовать в маркетинге.
Поэтому вокруг бенчмарков выросла целая индустрия громких цифр, лидербордов и сравнений, которые отлично смотрятся в презентациях. Проблема в том, что ИИ почти никогда не используется так, как его тестируют. В реальной работе система не существует в вакууме: она встраивается в команды, процессы, правила, дедлайны и внутренние стандарты.
Её ценность проявляется не в одном ответе, а в серии взаимодействий за недели и месяцы. Поэтому высокий балл на изолированной задаче ещё не говорит о том, что модель ускорит работу, снизит ошибки или вообще окажется полезной для организации.
Где ломается оценка В статье приводится показательный пример из медицины.
Есть системы для анализа снимков, которые на тестах читают изображения быстрее и точнее опытных радиологов. На бумаге это выглядит как готовый рецепт роста продуктивности. Но в больнице решение редко принимает один специалист в один момент.
Вокруг одного случая могут работать радиологи, онкологи, физики, медсёстры и другие участники команды, а план лечения меняется по мере появления новых данных. Когда такие инструменты попадают в реальный контур, выясняется, что персоналу нужно дополнительное время, чтобы интерпретировать ответы модели, сопоставить их с локальными стандартами отчётности и проверить соответствие регуляторным требованиям. В итоге система, которая в тесте обещала ускорение, в практике иногда создаёт задержки.
Более того, она может усиливать раннее «якорение» на правдоподобном, но неполном ответе, повышать когнитивную нагрузку и переносить ошибки дальше по цепочке. Так и возникает «кладбище ИИ» — продукты с высокими оценками, которые не приживаются в реальной работе.
Что предлагают вместо
Вместо узких тестов автор предлагает HAIC-бенчмарки — Human-AI, Context-Specific Evaluation. Это подход, в котором оценивают не только саму модель, но и то, как она ведёт себя внутри конкретной команды, процесса и организационной среды. Смысл в том, чтобы приблизить оценку к реальному использованию, а не к лабораторной демонстрации.
- Сдвинуть фокус с отдельной задачи на работу команды и всего процесса Измерять эффект не в одном тестовом запуске, а на длинной дистанции Считать важными не только скорость и точность, но и координацию, качество совместного решения и заметность ошибок * Смотреть не только на ответ модели, но и на последствия до и после её применения Автор описывает и ранние примеры такого подхода. В одной британской больничной системе вопрос ставили не как «стала ли диагностика точнее», а как «меняет ли ИИ качество коллективного обсуждения и взаимодействия между специалистами». В гуманитарном секторе похожую систему наблюдали 18 месяцев и отдельно отслеживали, насколько легко люди замечают и исправляют ошибки модели. Такой длинный горизонт позволяет проектировать защитные механизмы под конкретный контекст, а не надеяться, что высокий балл в тесте сам по себе гарантирует безопасность и пользу.
Что это значит
Индустрия постепенно упирается в предел старых метрик: они хорошо показывают, что модель умеет делать в одиночку, но плохо — что происходит, когда она становится частью живой организации. Для бизнеса и государства это сигнал смотреть не только на лидерборды, а на то, помогает ли ИИ командам работать устойчивее, быстрее и безопаснее в реальных условиях.