Los chatbots de AI populares fallan en los diagnósticos en más del 80% de los casos, según un estudio
Los chatbots de AI de consumo aún no son adecuados para el diagnóstico médico: un estudio mostró errores en más del 80% de los casos. Cuando el modelo dispone d

Популярные потребительские ИИ-боты плохо справляются с ролью цифрового диагноста. Исследование показало, что при попытке поставить медицинский диагноз по ограниченному набору симптомов они ошибаются более чем в 80 % случаев.
Как тестировали ботов
Исследователи проверяли не специализированные медицинские системы, а массовые чат-боты, к которым пользователи идут за быстрым ответом на любой вопрос. Им предлагали сценарии с неполными данными о состоянии пациента — примерно так, как человек описывает самочувствие в первом сообщении, без анализов, осмотра и уточняющих вопросов врача. Задача выглядела простой: сопоставить симптомы с вероятной причиной.
Но именно в таком режиме и проявилась главная проблема: уверенная, связная и удобная по форме реплика часто не совпадала с клинически верным выводом. Важно и то, что такой формат очень близок к реальному пользовательскому поведению. Люди редко приходят к боту с аккуратно оформленной медицинской картой: чаще это несколько фраз про боль, температуру, слабость или необычный симптом, который хочется быстро объяснить без записи в клинику.
Поэтому тест фактически проверял не абстрактную способность модели рассуждать о медицине, а её пригодность в бытовом сценарии, где и возникает соблазн заменить консультацию специалиста мгновенным ответом из чата.
Откуда берутся ошибки
Универсальные модели хорошо пересказывают общие сведения, объясняют термины и собирают информацию в компактный ответ. Но медицинская диагностика устроена иначе: здесь нужно работать с неопределённостью, отсекать похожие варианты, учитывать редкие, но опасные сценарии и иногда честно говорить, что данных недостаточно. Потребительский бот чаще стремится завершить запрос полезным на вид ответом, а не остановиться на безопасной формулировке и отправить человека к специалисту.
Дополнительная проблема в том, что массовый чат-бот не ведёт полноценный диагностический диалог. Он может задать пару уточнений, но не выстраивает системную проверку гипотез, не сопоставляет ответы с объективными измерениями и не несёт клинической ответственности за итог. Даже если модель угадывает общее направление, она легко пропускает детали, которые для врача меняют весь вывод: длительность симптомов, сопутствующие заболевания, лекарства, возраст, недавние операции или динамику ухудшения.
Проблема усиливается, когда симптомы пересекаются у десятков состояний, а пользователь описывает их неточно или слишком кратко. В таких условиях модель начинает достраивать картину по шаблону и сжимает неопределённость в один уверенный ответ, хотя в реальной практике врач скорее оставил бы несколько версий и назначил бы дополнительные проверки. Именно это делает ошибку особенно незаметной для пользователя.
В результате возникают типичные сбои: бот путает состояния с похожими симптомами занижает срочность потенциально опасных случаев выдает один уверенный диагноз там, где нужен список версий не отделяет справочную информацию от медицинского решения ## Почему это опасно Главный риск не в том, что бот иногда ошибается, а в том, что он делает это убедительно. Для пользователя спокойный и уверенный тон может выглядеть как признак компетентности, хотя за ответом не стоит ни осмотр, ни доступ к истории болезни, ни проверка анализов. Если человек получает ложное успокоение, он может отложить визит к врачу, пропустить ухудшение состояния или выбрать неправильные действия в первые часы, когда скорость реакции особенно важна.
Особенно опасен такой сценарий там, где симптомы похожи на что-то безобидное, но на деле требуют срочной оценки: например, сильная боль, одышка, неврологические нарушения или признаки инфекции. В подобных случаях ошибка — это не просто неточная формулировка в чате, а потерянное время. Потребительские боты оптимизированы под удобство общения и ощущение полезности, а не под консервативную медицинскую сортировку, где лучше лишний раз направить человека к врачу, чем пропустить критический сигнал.
Это не значит, что ИИ бесполезен в медицине. Такие системы могут помочь сформулировать жалобы, объяснить значение терминов, собрать вопросы к приёму или напомнить, какие данные стоит подготовить перед консультацией. Но именно как инструмент постановки диагноза массовые чат-боты пока ненадёжны, особенно когда информации мало, симптомы размыты, а цена ошибки высока.
В такой роли их разумнее использовать как подготовительный и справочный слой перед обращением к врачу, а не как финальный арбитр.
Что это значит
Вывод исследования довольно жёсткий: популярные ИИ-боты нельзя воспринимать как замену врачу, даже если они быстро находят информацию и говорят уверенно. Для пользователей это граница доверия, а для компаний — сигнал, что медицинские сценарии требуют узкой настройки, проверки специалистами и очень осторожной подачи ответов.