IEEE Spectrum AI→ оригинал

Ошибки в рассуждениях ИИ опаснее неверных ответов

Недавние исследования выявили, что ИИ испытывает трудности с разграничением фактов и убеждений, а также подвержен ошибкам в рассуждениях, особенно в медицине. Э

Ошибки в рассуждениях ИИ опаснее неверных ответов
Источник: IEEE Spectrum AI. Коллаж: Hamidun News.

Широко известно, что искусственный интеллект (ИИ) все еще допускает ошибки. Однако, более серьезной проблемой могут оказаться недостатки в том, как он приходит к выводам. По мере того, как генеративный ИИ все чаще используется в качестве помощника, а не просто инструмента, два новых исследования показывают, что логика моделей может иметь серьезные последствия в таких критических областях, как здравоохранение, юриспруденция и образование.

В последние годы точность больших языковых моделей (LLM) при ответах на вопросы по различным темам значительно возросла. Это вызвало растущий интерес к потенциалу технологии в таких областях, как постановка медицинских диагнозов, оказание терапевтической помощи или выполнение функций виртуального репетитора. Отрывочные сообщения свидетельствуют о том, что пользователи уже широко используют готовые LLM для решения подобных задач, с переменным успехом. Недавно женщина в Калифорнии отменила уведомление о выселении, воспользовавшись ИИ для получения юридической консультации, но 60-летний мужчина получил отравление бромидом, обратившись к этим инструментам за медицинскими советами. Терапевты предупреждают, что использование ИИ для поддержки психического здоровья часто усугубляет симптомы пациентов.

Новые исследования показывают, что часть проблемы заключается в том, что эти модели рассуждают принципиально иначе, чем люди, что может привести к их «разрыву» при решении более сложных проблем. В недавней статье в Nature Machine Intelligence установлено, что модели испытывают трудности с разграничением убеждений пользователей и фактов, а в неопубликованной статье на arXiv говорится, что многоагентные системы, предназначенные для предоставления медицинских консультаций, подвержены недостаткам в рассуждениях, которые могут сорвать диагностику.

«По мере того, как мы переходим от ИИ как просто инструмента к ИИ как агенту, «как» становится все более важным», — говорит Джеймс Зу, адъюнкт-профессор биомедицинской науки о данных в Стэнфордской медицинской школе и старший автор статьи в Nature Machine Intelligence. «Как только вы используете это в качестве прокси для консультанта, репетитора, врача или даже друга, то важен не только окончательный ответ. Действительно важен весь процесс и вся беседа».

Проблемы в том, как модели принимают решения, могут быть особенно проблематичными в медицинских учреждениях. Растет интерес к использованию многоагентных систем, в которых несколько ИИ-агентов участвуют в совместном обсуждении для решения проблемы, в надежде воспроизвести междисциплинарные команды врачей, которые диагностируют сложные медицинские состояния, говорит Лекуан Ю, доцент кафедры медицинского ИИ в Университете Гонконга. Поэтому он и его коллеги решили исследовать, как эти системы рассуждают при решении проблем, протестировав шесть из них на 3600 реальных случаях из шести медицинских наборов данных.

Обе группы исследователей говорят, что недостатки в рассуждениях моделей можно проследить до способа их обучения. Новейшие LLM обучаются рассуждать при решении сложных, многоэтапных задач с использованием обучения с подкреплением, когда модель получает вознаграждение за логические пути, которые приводят к правильному выводу. Однако их обычно обучают на задачах с конкретными решениями, таких как кодирование и математика, которые плохо подходят для более открытых задач, таких как определение субъективных убеждений человека, говорит Зу.

Ориентация на вознаграждение за правильные результаты также означает, что обучение не оптимизирует хорошие процессы рассуждения, говорит Чжу. И наборы данных редко включают в себя дебаты и обсуждения, необходимые для эффективных многоагентных медицинских систем, что, по его мнению, может быть причиной того, что агенты придерживаются своего мнения, независимо от того, правы они или нет.

Улучшение методов обучения, в частности, уделение большего внимания процессам рассуждения, а не только конечным результатам, является ключевым шагом. Разработка наборов данных, включающих примеры эффективного сотрудничества и дебатов, также может помочь моделям развить более тонкое понимание сложных проблем. Только тогда мы сможем безопасно полагаться на ИИ в критических областях, таких как здравоохранение и образование.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…