Pesquisadora da UCL e de Stanford explica por que os benchmarks de AI deixaram de funcionar

Q: Источник материала?

Оригинальная публикация на Habr AI. Hamidun News обрабатывает и адаптирует материалы с помощью AI.

Q: Когда опубликовано?

2026-05-02. Время чтения: 3 мин.

Pontuações altas em benchmarks de AI dizem cada vez menos sobre utilidade real. Angela Aristidou, da UCL e de Stanford, escreve que os modelos devem ser avaliad

ЖХ

Редакция Hamidun News

AI‑мониторинг · Habr AI

2026-05-02· 2 мин

◐ Слушать статью

Высокие оценки в бенчмарках ИИ больше не гарантируют, что модель будет полезна в реальной работе. Исследователь Анжела Аристиду из UCL и Стэнфорда предлагает перестроить саму логику оценки ИИ: смотреть не на результаты в вакууме, а на то, как системы ведут себя внутри команд, процессов и длинных рабочих циклов.

Почему тесты ломаются

Сегодняшние бенчмарки удобны, потому что сводят всё к простому вопросу: решила ли модель изолированную задачу лучше человека. Такой подход хорошо работает для шахмат, экзаменационных задач, коротких фрагментов кода или текстов с однозначным ответом. На выходе индустрия получает понятные рейтинги, проценты точности и красивые сравнительные таблицы.

Проблема в том, что почти никто не использует ИИ именно так, как его тестируют. В организациях модели работают не в стерильной среде, а в запутанных процессах с несколькими участниками, внутренними правилами, исключениями и меняющимися вводными. Там важны не только скорость и точность ответа, но и то, ускоряет ли ИИ согласования, помогает ли команде замечать ошибки и не создает ли новый слой операционного шума.

Поэтому модель, которая блестяще проходит синтетический тест, может оказаться слабым звеном в реальном контуре.

Проблема реальных команд

Аристиду приводит пример медицинских ИИ-систем, которые формально показывают очень сильные результаты и даже получают регуляторные одобрения. На практике врачи должны встроить их выводы в локальные стандарты отчетности, требования клиники и логику совместного принятия решений. Из-за этого инструмент, который на бумаге экономит время, в реальном процессе может, наоборот, добавлять задержки.

Особенно заметно это в среде, где решения принимаются не одним специалистом, а консилиумом. Радиологи, онкологи, медсестры и другие участники обсуждают пациента вместе, а план лечения уточняется по мере поступления новых данных. В такой системе важна не только точность подсказки, но и то, как она влияет на коллективное обсуждение.

Если модель провоцирует преждевременную уверенность, повышает когнитивную нагрузку или ломает привычную координацию, высокий балл в тесте уже мало что значит. Так ИИ-проекты попадают на то, что автор называет «кладбищем ИИ».

Что предлагает HAIC

Вместо оценки одиночной модели на разовой задаче автор предлагает HAIC-подход — Human-AI, Context-Specific Evaluation. Его идея в том, чтобы измерять связку «человек + ИИ» в конкретной рабочей среде и на длинной дистанции. Речь не о полном отказе от тестов, а о смещении фокуса: от лабораторной точности к реальному организационному эффекту.

HAIC меняет логику оценки сразу по нескольким направлениям: вместо отдельного исполнителя оценивается команда и весь воркфлоу вместо разового теста рассматривается длинный цикл использования вместо точности и скорости в центр ставятся координация, итоговый результат и заметность ошибок вместо изолированного ответа анализируются последствия для соседних процессов и решений Такой подход уже пробуют в практических кейсах. В одной британской больничной сети вопрос звучал не как «улучшает ли ИИ точность диагноза», а как «что меняется в работе многопрофильной команды, когда в нее добавляют ИИ». В гуманитарном секторе похожие системы тестировали 18 месяцев, отдельно отслеживая, насколько легко люди замечают и исправляют ошибки модели.

Именно такие длинные наблюдения позволяют понять, где нужны guardrails, а где технология действительно помогает.

Что это значит

Рынок постепенно упирается в предел синтетических метрик: они по-прежнему полезны для базового сравнения моделей, но уже плохо предсказывают реальную ценность внедрения. Если подход HAIC получит распространение, компаниям и регуляторам придется оценивать ИИ сложнее и дольше — зато с меньшим риском вложиться в систему, которая красиво выглядит в бенчмарке, но срывается в живом процессе.

ЖХ

Hamidun News

AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.

Telegram-канал RSS hamidun.com