Исследование: чат-боты ошибаются в 80% диагнозов на ранних этапах

Когда чат-боты НЕверно ставят диагноз?

Протестировали большие языковые модели (DeepSeek, ChatGPT, Grok и др.) на умение ставить диагнозы. Оказалось, что чат-боты относительно хорошо ставят финальный диагноз, но проваливаются именно там, где это особенно опасно.

Что сделали? Протестировали 21 современную языковую модель на медицинских задачах. Для этого взяли 29 медицинских историй болезни из профессионального справочника MSD Manual. Чат-ботам нужно было пройти 5 этапов, как настоящему врачу:

1. Провести дифференциальную диагностику: сперва описывались симптомы пациента, нужно было предположить возможные диагнозы. Запомните этот этап, дальше это важно.

2. Назначить обследования: анализы, снимки и тесты, которые помогут уточнить диагноз.

3. Поставить окончательный диагноз: когда получены все результаты обследований.

4. Назначить лечение.

5. Ответить на дополнительные вопросы: например, о прогнозе, осложнениях.

Модели, которые проверяли: GPT (4o, o1, o1-Pro, o3-Mini, 4.5 и GPT-5), Claude (3.5 Haiku, 3.5 Sonnet, 3.7 Sonnet, 3 Opus, 4.5 Opus), DeepSeek (V3 и R1), Gemini (1.5 Flash, 1.5 Pro, 2.0 Flash, 2.5 Pro, 3.0 Flash, 3.0 Pro), Grok (3 и 4).

Результаты

Окончательный диагноз модели поставили относительно хорошо. Они ошибались в 9–39% случаев. Тут важно учитывать, что он ставился после назначения и прохождения всех необходимых обследований. Однако на этапе дифференциальной диагностики чат-боты показали себя очень плохо: ВСЕ модели ошибались в более чем 80% случаев, а некоторые — в 90–100% случаев!

В чём основная проблема? Хорошие врачи работают иначе. Они могут держать в голове несколько возможных вариантов и постепенно отсеивают неправильные. А чат-боты сразу прыгают к окончательному выводу, пропуская этап тщательного рассмотрения всех вариантов. Это опасно, потому что можно пропустить важный диагноз на раннем этапе.

Современные большие языковые модели ещё НЕ ГОТОВЫ надёжно размышлять в ситуациях неопределённости, а именно этим обычно и занимаются врачи каждый день.

Практический вывод

Не стоит использовать чат-ботов для самодиагностики. Они пока что очень плохи в предварительной диагностике. Вы, конечно, можете попасть в эти менее 20%, которым правильно поставили диагноз, но не стоит этот опыт применять на все другие случаи.

Чат-ботов иногда можно использовать для объяснения уже поставленного врачом диагноза, расшифровки медицинских терминов или общей информации о здоровье. Но не для постановки диагноза!

Источник: исследование в JAMA Network Open (опубликовано 13 апреля 2026 года).

За перевод статьи и текст с телеграмм канала Конспекты Юджина. ТГ: @eugenes_time

Комментариев ещё никто не написал.