Habr AI→ оригинал

Investigadora de UCL y Stanford explica por qué los benchmarks de AI dejaron de funcionar

Las puntuaciones altas en los benchmarks de AI dicen cada vez menos sobre la utilidad real. Angela Aristidou, de UCL y Stanford, escribe que los modelos no debe

◐ Слушать статью

Высокие оценки в бенчмарках ИИ больше не гарантируют, что модель будет полезна в реальной работе. Исследователь Анжела Аристиду из UCL и Стэнфорда предлагает перестроить саму логику оценки ИИ: смотреть не на результаты в вакууме, а на то, как системы ведут себя внутри команд, процессов и длинных рабочих циклов.

Почему тесты ломаются

Сегодняшние бенчмарки удобны, потому что сводят всё к простому вопросу: решила ли модель изолированную задачу лучше человека. Такой подход хорошо работает для шахмат, экзаменационных задач, коротких фрагментов кода или текстов с однозначным ответом. На выходе индустрия получает понятные рейтинги, проценты точности и красивые сравнительные таблицы.

Проблема в том, что почти никто не использует ИИ именно так, как его тестируют. В организациях модели работают не в стерильной среде, а в запутанных процессах с несколькими участниками, внутренними правилами, исключениями и меняющимися вводными. Там важны не только скорость и точность ответа, но и то, ускоряет ли ИИ согласования, помогает ли команде замечать ошибки и не создает ли новый слой операционного шума.

Поэтому модель, которая блестяще проходит синтетический тест, может оказаться слабым звеном в реальном контуре.

Проблема реальных команд

Аристиду приводит пример медицинских ИИ-систем, которые формально показывают очень сильные результаты и даже получают регуляторные одобрения. На практике врачи должны встроить их выводы в локальные стандарты отчетности, требования клиники и логику совместного принятия решений. Из-за этого инструмент, который на бумаге экономит время, в реальном процессе может, наоборот, добавлять задержки.

Особенно заметно это в среде, где решения принимаются не одним специалистом, а консилиумом. Радиологи, онкологи, медсестры и другие участники обсуждают пациента вместе, а план лечения уточняется по мере поступления новых данных. В такой системе важна не только точность подсказки, но и то, как она влияет на коллективное обсуждение.

Если модель провоцирует преждевременную уверенность, повышает когнитивную нагрузку или ломает привычную координацию, высокий балл в тесте уже мало что значит. Так ИИ-проекты попадают на то, что автор называет «кладбищем ИИ».

Что предлагает HAIC

Вместо оценки одиночной модели на разовой задаче автор предлагает HAIC-подход — Human-AI, Context-Specific Evaluation. Его идея в том, чтобы измерять связку «человек + ИИ» в конкретной рабочей среде и на длинной дистанции. Речь не о полном отказе от тестов, а о смещении фокуса: от лабораторной точности к реальному организационному эффекту.

HAIC меняет логику оценки сразу по нескольким направлениям: вместо отдельного исполнителя оценивается команда и весь воркфлоу вместо разового теста рассматривается длинный цикл использования вместо точности и скорости в центр ставятся координация, итоговый результат и заметность ошибок вместо изолированного ответа анализируются последствия для соседних процессов и решений Такой подход уже пробуют в практических кейсах. В одной британской больничной сети вопрос звучал не как «улучшает ли ИИ точность диагноза», а как «что меняется в работе многопрофильной команды, когда в нее добавляют ИИ». В гуманитарном секторе похожие системы тестировали 18 месяцев, отдельно отслеживая, насколько легко люди замечают и исправляют ошибки модели.

Именно такие длинные наблюдения позволяют понять, где нужны guardrails, а где технология действительно помогает.

Что это значит

Рынок постепенно упирается в предел синтетических метрик: они по-прежнему полезны для базового сравнения моделей, но уже плохо предсказывают реальную ценность внедрения. Если подход HAIC получит распространение, компаниям и регуляторам придется оценивать ИИ сложнее и дольше — зато с меньшим риском вложиться в систему, которая красиво выглядит в бенчмарке, но срывается в живом процессе.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…