Pesquisadora da UCL e de Stanford explica por que os benchmarks de AI deixaram de funcionar
Pontuações altas em benchmarks de AI dizem cada vez menos sobre utilidade real. Angela Aristidou, da UCL e de Stanford, escreve que os modelos devem ser avaliad
Высокие оценки в бенчмарках ИИ больше не гарантируют, что модель будет полезна в реальной работе. Исследователь Анжела Аристиду из UCL и Стэнфорда предлагает перестроить саму логику оценки ИИ: смотреть не на результаты в вакууме, а на то, как системы ведут себя внутри команд, процессов и длинных рабочих циклов.
Почему тесты ломаются
Сегодняшние бенчмарки удобны, потому что сводят всё к простому вопросу: решила ли модель изолированную задачу лучше человека. Такой подход хорошо работает для шахмат, экзаменационных задач, коротких фрагментов кода или текстов с однозначным ответом. На выходе индустрия получает понятные рейтинги, проценты точности и красивые сравнительные таблицы.
Проблема в том, что почти никто не использует ИИ именно так, как его тестируют. В организациях модели работают не в стерильной среде, а в запутанных процессах с несколькими участниками, внутренними правилами, исключениями и меняющимися вводными. Там важны не только скорость и точность ответа, но и то, ускоряет ли ИИ согласования, помогает ли команде замечать ошибки и не создает ли новый слой операционного шума.
Поэтому модель, которая блестяще проходит синтетический тест, может оказаться слабым звеном в реальном контуре.
Проблема реальных команд
Аристиду приводит пример медицинских ИИ-систем, которые формально показывают очень сильные результаты и даже получают регуляторные одобрения. На практике врачи должны встроить их выводы в локальные стандарты отчетности, требования клиники и логику совместного принятия решений. Из-за этого инструмент, который на бумаге экономит время, в реальном процессе может, наоборот, добавлять задержки.
Особенно заметно это в среде, где решения принимаются не одним специалистом, а консилиумом. Радиологи, онкологи, медсестры и другие участники обсуждают пациента вместе, а план лечения уточняется по мере поступления новых данных. В такой системе важна не только точность подсказки, но и то, как она влияет на коллективное обсуждение.
Если модель провоцирует преждевременную уверенность, повышает когнитивную нагрузку или ломает привычную координацию, высокий балл в тесте уже мало что значит. Так ИИ-проекты попадают на то, что автор называет «кладбищем ИИ».
Что предлагает HAIC
Вместо оценки одиночной модели на разовой задаче автор предлагает HAIC-подход — Human-AI, Context-Specific Evaluation. Его идея в том, чтобы измерять связку «человек + ИИ» в конкретной рабочей среде и на длинной дистанции. Речь не о полном отказе от тестов, а о смещении фокуса: от лабораторной точности к реальному организационному эффекту.
HAIC меняет логику оценки сразу по нескольким направлениям: вместо отдельного исполнителя оценивается команда и весь воркфлоу вместо разового теста рассматривается длинный цикл использования вместо точности и скорости в центр ставятся координация, итоговый результат и заметность ошибок вместо изолированного ответа анализируются последствия для соседних процессов и решений Такой подход уже пробуют в практических кейсах. В одной британской больничной сети вопрос звучал не как «улучшает ли ИИ точность диагноза», а как «что меняется в работе многопрофильной команды, когда в нее добавляют ИИ». В гуманитарном секторе похожие системы тестировали 18 месяцев, отдельно отслеживая, насколько легко люди замечают и исправляют ошибки модели.
Именно такие длинные наблюдения позволяют понять, где нужны guardrails, а где технология действительно помогает.
Что это значит
Рынок постепенно упирается в предел синтетических метрик: они по-прежнему полезны для базового сравнения моделей, но уже плохо предсказывают реальную ценность внедрения. Если подход HAIC получит распространение, компаниям и регуляторам придется оценивать ИИ сложнее и дольше — зато с меньшим риском вложиться в систему, которая красиво выглядит в бенчмарке, но срывается в живом процессе.