Habr AI→ оригинал

ChatGPT без ошибок прошёл пять медицинских кейсов, но уступил в плане действий

ChatGPT в эксперименте прошёл пять из пяти медицинских кейсов по основному диагнозу, включая MGUS и статин-индуцированный рабдомиолиз. Но после этого начались р

ChatGPT без ошибок прошёл пять медицинских кейсов, но уступил в плане действий
Источник: Habr AI. Коллаж: Hamidun News.

Эксперимент, в котором от ChatGPT ждали хотя бы одной диагностической ошибки, закончился неожиданным для авторов результатом: модель верно определила основной диагноз во всех пяти медицинских кейсах. Но победа на уровне формулировки диагноза не превратилась в общую победу в клиническом сравнении. Самый заметный разрыв проявился дальше — в практическом плане действий после ответа: какие обследования нужны до начала терапии, к каким специалистам направлять пациента, какие целевые показатели контролировать и когда повторять анализы.

Именно на этом этапе ChatGPT чаще уступал специализированному сервису МедАссист. Сравнение включало пять кейсов: метаболический синдром, субклинический гипотиреоз, перименопаузу, MGUS и статин-индуцированный рабдомиолиз. Во всех случаях ChatGPT попал в главный диагноз, что уже само по себе показательно для универсальной LLM.

Авторы признают, что перед прогоном ожидали минимум одну серьёзную ошибку, но этого не случилось. Однако в медицине сам диагноз — только часть задачи. Не меньшее значение имеет следующий шаг: безопасно ли начинать лечение, какие красные флаги проверить заранее и какие уточняющие тесты нужны, чтобы не пропустить противопоказания или сопутствующие риски.

Именно здесь разница между моделями стала системной. По четырём плановым кейсам ChatGPT хуже отвечал на вопрос, что пациент должен делать в ближайшие две недели. Речь шла не о красивой формулировке, а о прикладной клинической логике: например, напомнить о ПСА перед заместительной терапией тестостероном, о маммографии до назначения менопаузальной гормональной терапии, о целевых уровнях показателей и сроках повторной проверки.

В кейсе с рабдомиолизом важной оказалась и интерпретация соотношения АСТ и АЛТ — деталь, которая влияет на понимание причин изменений в анализах и последующую тактику. Но у сравнения был и обратный пример. В кейсе с MGUS, моноклональной гаммапатией неопределённого значения, уже МедАссист оказался слабее.

ChatGPT явно посчитал соотношение альбумина и глобулина и отдельно перечислил подтверждающие исследования, с которыми пациента стоит отправлять к гематологу. Авторы прямо пишут, что их сервис не сделал ни того, ни другого, и именно поэтому разбор этого кейса у них получился самым подробным. Такой эпизод важен не только как локальный проигрыш, но и как напоминание: специализированный продукт не получает преимущества автоматически только потому, что создан под узкую задачу.

Отдельно авторы фиксируют возможный конфликт интересов: текст подготовлен командой, которая делает МедАссист, один из двух участников сравнения. Они не пытаются это скрывать и утверждают, что заранее зафиксировали методику, опубликовали ответы обоих сервисов дословно, а собственный неудачный кейс разобрали подробно, а не вскользь. Это не убирает вопросы о полной нейтральности, но делает материал полезнее, чем типичная маркетинговая демонстрация, где показывают только удобные примеры.

Для читателя здесь ценнее всего не счёт по кейсам, а прозрачность того, где именно модели сильны и где начинают ошибаться в прикладных решениях. Главный вывод из этого теста довольно приземлённый: большие языковые модели уже могут стабильно попадать в диагноз даже в сложных случаях, но качество медицинского ответа нельзя оценивать только по первой строке. Если система верно назвала состояние, но не подсказала обязательные обследования перед терапией, не обозначила маршрут к нужному специалисту и не уточнила сроки контроля, риск ошибки никуда не исчезает.

Для разработчиков медицинских AI-сервисов это сигнал смещать фокус с впечатляющих диагнозов на полный сценарий ведения пациента. А для пользователей — напоминание, что ценность таких систем определяется не только точностью распознавания, но и безопасностью следующего шага.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…