Новое исследование показало, что чат-бот с искусственным интеллектом (ИИ) ChatGPT крайне неточен при постановке педиатрических диагнозов.
Точно так же, как многие родители могут обратиться к веб-сайтам, таким как WebMD, чтобы узнать о симптомах, которые испытывают их дети, у них также может возникнуть соблазн попросить помощи у ChatGPT. Однако исследователи обнаружили, что чат-бот с искусственным интеллектом, работающий на языковой модели под названием GPT-3.5 производства OpenAI, не смог правильно диагностировать 83% рассмотренных им педиатрических случая. Свои выводы они опубликовали 2 января в журнале JAMA Pediatrics.
Их исследование, которое является первым, оценивающим способность ChatGPT диагностировать педиатрические случаи, следует за предыдущим исследованием, опубликованным 15 июня 2023 года в журнале JAMA. Эта предыдущая работа показала, что более новая языковая модель под названием GPT-4 правильно поставила диагноз только в 39% сложных медицинских случаях, включая те, которые касаются как взрослых, так и детей.
В этом новом исследовании учёные проанализировали 100 случаев заболевания пациентов, полученных из JAMA Pediatrics и The New England Journal of Medicine (NEJM), с помощью ChatGPT, попросив чат-бот «перечислить дифференциальный диагноз и окончательный диагноз». Дифференциальные диагнозы относятся к вероятным заболеваниям, которые могут объяснить симптомы человека, только после оценки всех этих возможностей врач затем ставит окончательный диагноз.
Эти педиатрические случаи были опубликованы в журналах в период с 2013 по 2023 год.
Чтобы проверить результаты исследования, два медицинских исследователя сравнили диагноз, поставленный ИИ, с диагнозами, поставленными врачами в каждом случае. Они присвоили каждому ответу, сгенерированному ИИ, оценку «правильный», «неправильный» или «не полностью отражающий диагноз».
Высокий уровень неточности
ChatGPT предоставил неверные диагнозы в 72 из 100 случаев, при этом 11 из 100 результатов были отнесены к категории «клинически связанных, но слишком общих, чтобы считаться правильным диагнозом».
В одном из случаев, когда ChatGPT был поставлен неправильный диагноз, у подростка с аутизмом появились симптомы сыпи и скованности суставов. Несмотря на то, что врач первоначально диагностировал у подростка цингу, состояние, вызываемое острой нехваткой витамина С, ChatGPT поставил диагноз: иммунная тромбоцитопеническая пурпура (ИТП). Последнее представляет собой аутоиммунное заболевание, которое влияет на свёртываемость крови, вызывая синяки и кровотечения. Люди с аутизмом могут придерживаться очень ограничительной диеты из-за чувствительности к текстуре или вкусу пищи, что может сделать их склонными к дефициту витаминов.
В другом неточном случае речь шла о младенце с дренирующим абсцессом на боковой стороне шеи, который лечащий врач первоначально приписал бранхиоторенальному синдрому (БОР). Это состояние развития влияет на формирование почек, ушей и шеи. Вместо синдрома БОРа, ChatGPT утверждал, что у младенца была киста жаберной щели, когда ткани шеи и ключиц ребёнка неправильно развиваются до рождения.
Однако в нескольких случаях ChatGPT поставил тот же диагноз, что и врачи. У 15-летней девочки с необъяснимым случаем давления на мозг, известным как идиопатическая внутричерепная гипертензия (ИВГ), диагноз ChatGPT правильно совпал с первоначальным диагнозом врача о болезни Аддисона, редком гормональном заболевании, поражающем надпочечники. В редких случаях ИВГ может быть сопутствующим заболеванием, возникающим в результате болезни Аддисона.
Неоднозначные перспективы для здравоохранения
И хотя исследователи обнаружили высокий уровень неточности в педиатрических диагнозах, сгенерированных искусственным интеллектом, они сказали, что большие языковые модели (LLM) по-прежнему имеют ценность как «административный инструмент для врачей», например, при ведении заметок. Однако неудовлетворительные диагностические возможности чат-бота, наблюдаемые в этом исследовании, здорово подчёркивают неоценимую роль клинического опыта.
Исследователи объяснили, что одним из наиболее существенных ограничений ChatGPT является его неспособность найти взаимосвязь между медицинскими расстройствами, такими как связь между аутизмом и дефицитом витаминов, ссылаясь на вышеупомянутый случай цинги, который был опубликован в 2017 году в журнале JAMA Pediatrics. Они считают, что «требуется более избирательное обучение», когда речь заходит об улучшении способности искусственного интеллекта ставить точные диагнозы в будущем.
Эти технологии также могут подвести из-за «отсутствия доступа к медицинской информации в режиме реального времени», добавили они. В результате они предупредили, что чат-боты с искусственным интеллектом могут не быть в курсе «новых исследований, диагностических критериев, а также текущих тенденций в области здравоохранения или вспышек заболеваний».
«Это даёт исследователям возможность выяснить, может ли конкретное обучение и настройка медицинских данных повысить точность диагностики чат-ботов на основе LLM», — заключили исследователи в своей статье.