Guardian→ оригинал

Harvard : l’AI plus précise que les médecins lors du triage aux urgences

Harvard et Beth Israel Deaconess ont comparé OpenAI o1 à des médecins sur des cas réels issus des urgences. Au stade du triage initial, le modèle a plus souvent

Harvard : l’AI plus précise que les médecins lors du triage aux urgences
Источник: Guardian. Коллаж: Hamidun News.

Команда Harvard Medical School и Beth Israel Deaconess Medical Center сообщила, что модель рассуждения OpenAI o1 показала более высокую точность, чем врачи, в ряде задач экстренной диагностики. Самый заметный результат — на этапе первичной сортировки в приёмном отделении, когда данных мало, а решение нужно быстро.

Как проходило сравнение

Исследование вышло 30 апреля 2026 года в журнале Science и стало одной из крупнейших попыток сравнить ИИ не с экзаменационными тестами, а с реальной клинической работой. Авторы прогнали модель через шесть экспериментов: от сложных диагностических кейсов и вероятностного рассуждения до задач по выбору дальнейшей тактики. Ключевая часть работы — 76 реальных случаев из приёмного отделения больницы в Бостоне.

Модель и врачи получали одинаковые записи из электронной медкарты и должны были предложить наиболее вероятные диагнозы и следующие шаги. Важно, что данные почти не «причесывали» перед тестом. Исследователи использовали тот же шумный и неполный текст, который врач видит в первые минуты: жизненные показатели, возраст, краткое описание жалоб от медсестры, отдельные заметки из истории болезни.

Проверка шла на трёх этапах: в момент триажа, при первом контакте с врачом и уже при решении о госпитализации в отделение или реанимацию. Оценщики не знали, кто именно дал ответ — человек или модель.

Где ИИ оказался сильнее

Самый заметный перевес модель показала именно там, где у врача меньше всего информации. На раннем триаже OpenAI o1 давала точный или очень близкий диагноз в 67% случаев. У врачей на том же наборе пациентов показатель был в диапазоне 50–55%.

Когда данных становилось больше, точность ИИ поднималась до 82%, а у людей — до 70–79%; здесь разрыв уже не был статистически значимым, но тренд сохранился. В задачах на план ведения случая, включая выбор тестов, антибиотиков и обсуждение целей лечения, модель тоже выступила заметно сильнее. 67% — точный или близкий диагноз у ИИ на первичном триаже 50–55% — результат врачей на том же этапе 82% — точность ИИ после поступления дополнительных данных 89% — оценка модели в задачах по тактике ведения против 34% у врачей Авторы привели и показательный пример.

В одном случае пациент поступил с тромбом в лёгких и ухудшением состояния. Врачи предположили, что стандартная антикоагулянтная терапия не сработала. Модель же связала картину с волчанкой в анамнезе и предположила, что источник проблемы — воспаление лёгких на этом фоне.

Позже именно эта версия подтвердилась. Исследователи отдельно отмечают, что модель особенно уверенно работала с редкими и запутанными случаями.

Почему это не замена врачам

Из этих результатов не следует, что приёмное отделение можно перевести на автопилот. Исследование проверяло прежде всего текстовую часть клинического рассуждения: чтение медкарты, построение дифференциального диагноза и предложение следующего шага. ИИ не осматривал пациента, не видел выражение боли, не слушал дыхание, не оценивал походку, не работал с рентгеном и ЭКГ так, как это делает врач у койки. Внешние эксперты уже напомнили: речь идёт скорее о «слепом втором мнении» по тексту, а не о полном ведении пациента в реальном времени.

«Мы наблюдаем действительно глубокий технологический сдвиг, который изменит медицину», — сказал соавтор исследования Арджун Манраи.

Но сами авторы одновременно подчёркивают ограничения. Даже если модель чаще угадывает главный диагноз, она может предложить лишние анализы или вмешательства, которые навредят пациенту. Кроме того, пока нет внятной системы ответственности: кто отвечает за ошибку, если врач доверился подсказке алгоритма? Поэтому исследователи говорят не о замене врача, а о новом формате совместной работы, где ИИ выступает как быстрый аналитик и источник второго мнения, а финальное решение остаётся за человеком.

Что это значит

Для медицины это сигнал, что большие языковые модели выходят из режима демонстраций и подходят к реальной клинической проверке. Ближайший сценарий — не автономный «AI doctor» без людей, а системы, которые незаметно просматривают электронные карты, подсказывают пропущенные версии диагноза и помогают быстрее расставлять приоритеты в приёмном покое. Следующий этап теперь очевиден: не новые бенчмарки, а проспективные клинические испытания, где будут смотреть уже не только на точность ответа, но и на безопасность, стоимость и влияние на исход лечения.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…