Согласно новому исследованию, медицинские диагнозы, поставленные ChatGPT, точны менее чем в половине случаев.
Учёные попросили чат-бота на базе искусственного интеллекта (ИИ) оценить 150 клинических случаев с медицинского сайта Medscape и обнаружили, что версия GPT 3.5 (которая использовалась для ChatGPT при его запуске в 2022 году) дала правильный диагноз только в 49% случаев.
Ранее проведённые исследования показали, что чат-бот может сдать экзамен на получение медицинской лицензии в США (USMLE), что его авторы назвали «заметным этапом в развитии ИИ».
Однако в новом исследовании, опубликованном 31 июля в журнале PLOS ONE, учёные предостерегли от использования чат-бота для сложных медицинских случаев, требующих человеческого вмешательства и рассудительности.
«Если люди испытывают страх, замешательство или просто не могут получить медицинскую помощь, они могут полагаться на инструмент, который, кажется, предоставляет медицинские советы, «индивидуально подобранные» для них, — сказал в интервью для Live Science старший автор исследования доктор Амрит Кирпалани (Amrit Kirpalani), врач-нефролог из Школы медицины и стоматологии Шулиха при Университете Западного Онтарио. — Я считаю, что как медицинское сообщество (и как научное сообщество в целом) мы должны проактивно информировать широкую аудиторию о ограничениях этих инструментов в этом отношении. Они не должны заменять вашего врача — пока.»
Способность ChatGPT предоставлять информацию основана на его обучающих данных. Для модели 2022 года использовались 570 гигабайт текстовых данных из репозитория Common Crawl, что эквивалентно примерно 300 миллиардам слов, взятым из книг, статей в интернете, Википедии и других веб-страниц.
Искусственные системы выявляют закономерности в текстах, на которых они были обучены, чтобы предсказать, какие слова могут следовать дальше, что позволяет им давать ответы на запросы или вопросы. В теории это делает их полезными как для студентов-медиков, так и для пациентов, которые ищут упрощённые ответы на сложные медицинские вопросы. Однако склонность чат-ботов к «галлюцинациям» — созданию полностью вымышленных ответов — ограничивает их полезность в медицинских диагностических задачах.
Чтобы оценить точность медицинских рекомендаций, предоставляемых ChatGPT, исследователи представили модели 150 различных клинических случаев, включая историю болезни пациентов, результаты медицинского осмотра и лабораторные изображения, предназначенные для проверки диагностических способностей врачей-стажёров. Чат-бот выбрал один из четырёх вариантов ответа в формате множественного выбора, прежде чем дать свой диагноз и план лечения, который исследователи оценивали по точности и ясности.
Результаты были неудовлетворительными: ChatGPT давал больше неправильных, чем правильных ответов о медицинской точности, в то время как он давал полные и релевантные результаты в 52% случаев. Тем не менее, общая точность чат-бота была намного выше — 74%, а это означает, что он мог гораздо надёжнее идентифицировать и отбрасывать неправильные ответы с несколькими вариантами ответов.
Исследователи заявили, что одной из причин такой низкой производительности может быть то, что ИИ не был обучен на достаточно большом наборе клинических данных, что делает его неспособным манипулировать результатами нескольких тестов и избегать работы с абсолютными значениями так же эффективно, как врачи-люди.
Несмотря на недостатки, исследователи заявили, что ИИ и чат-боты могут быть полезны в обучении пациентов и врачей-стажёров — при условии, что системы ИИ будут контролироваться, а их выводы проверяться на факты.
«Если вернуться к медицинским публикациям примерно 1995 года, можно увидеть, что аналогичная дискуссия велась в отношении «всемирной паутины». Публиковались статьи о новых интересных случаях использования, но также были статьи, скептически настроенные по поводу того, что это всего лишь мода, — сказал Кирпалани. — Я думаю, что в случае с ИИ и чат-ботами медицинское сообщество в конечном итоге придёт к выводу, что здесь заложен огромный потенциал для улучшения клинического принятия решений, оптимизации административных задач и повышения вовлечённости пациентов.»