«ИИ получает высокие оценки от врачей при ответе на медицинские вопросы»

AI highly rated by doctors for answering medical questions.

Программа искусственного интеллекта ChatGPT может стать источником точной и всесторонней медицинской информации, но она еще не готова для широкого применения, свидетельствует новое исследование.

Ответы ChatGPT на более чем 280 медицинских вопросов из различных областей специализации в среднем оказались правильными или почти полностью правильными, говорится в отчете, опубликованном онлайн 2 октября в JAMA Network Open.

«В целом, он показал довольно хорошие результаты по точности и полноте», – сказал старший исследователь Доктор Дуглас Джонсон, директор программы по клиническому исследованию меланомы в медицинском центре Вандербильт-Инграм в Нэшвилле, Теннесси.

«Конечно, он не был идеальным. Он не был полностью надежным», – продолжил Джонсон. – «Но на момент задания вопросов он был довольно точным и предоставлял, относительно говоря, достоверную информацию».

Показатели точности еще больше улучшались, если вторая программа искусственного интеллекта привлекалась для проверки ответа, предоставленного первой, показали результаты.

Джонсон и его коллеги решили протестировать ChatGPT, «задавая» программе вопросы о здоровье с января по май 2023 года, вскоре после того, как она появилась в сети.

Люди и врачи уже полагаются на поисковые системы, такие как Google и Bing, чтобы получить ответы на вопросы о здоровье, сказал Джонсон. Следующим этапом в исследовании медицинских вопросов могут стать программы искусственного интеллекта, такие как ChatGPT.

Такие программы искусственного интеллекта «практически становятся движками для ответов на многие типы вопросов в различных областях, в том числе в медицине, и поэтому мы решили выяснить, насколько точной и полной будет предоставляемая ими информация», – сказал Джонсон.

Исследователи привлекли 33 врачей из 17 областей специализации для создания 284 простых, средних и сложных вопросов для ChatGPT.

Точность ответов ChatGPT на эти вопросы составила в среднем 4,8 по 6-балльной шкале, сообщили исследователи. Оценка 4 означает «более правильный, чем неправильный», а 5 – «почти все правильно».

Средняя точность составляла 5 для простых вопросов, 4,7 для средних вопросов и 4,6 для сложных вопросов, говорится в отчете авторов исследования.

ChatGPT также предоставлял достаточно полные ответы, получив оценку 2,5 по 3-балльной шкале, согласно отчету.

«Даже на ранней стадии развития этих программ они были далеки от полной надежности, но все же предоставляли относительно точную и всестороннюю информацию», – сказал Джонсон.

Программа показала лучшие результаты в отношении некоторых специализаций. Например, в среднем она давала 5,7 правильных ответов на вопросы, касающиеся распространенных заболеваний, и 5,2 правильных ответа на вопросы, связанные с меланомой и иммунотерапией, выяснили исследователи.

Программа также лучше справлялась с ответами на вопросы типа «да/нет», чем на открытые вопросы, соответственно показатели точности составляли в среднем 6 и 5, соответственно.

Некоторые вопросы ChatGPT решала на отлично.

Например, ИИ дал полностью точный и полный ответ на вопрос: «Должны ли пациенты с анамнезом острого инфаркта миокарда принимать статины?»

«Да, пациенты с анамнезом острого инфаркта миокарда, как правило, должны принимать статины», – начинается ответ, перед тем как привести ряд контекстных сведений.

Другие вопросы программа решала с трудом или давала неправильные ответы.

Когда был задан вопрос о том, «какие пероральные антибиотики можно использовать для лечения инфекций МРСА», ответ содержал варианты, недоступные для перорального приема, отметили исследователи. В ответе также был опущен один из самых важных пероральных антибиотиков.

Однако, такие ошибки могут быть вызваны и неправильным формулированием вопроса со стороны врача, который не смог подобрать формулировку, понятную программе, сказал доктор Стивен Уолдерен, главный информатик-медик Американской академии семейных врачей.

Конкретно, программа могла запутаться из-за фразы «можно использовать» в вопросе, сказал Уолдерен.

«Если бы этот вопрос был: “какие оральные антибиотики используются”, а не могут быть использованы, он мог бы выбрать этот (пропущенный) препарат», – сказал он. «В статье было мало разговоров о том, как нужно формулировать вопросы, потому что сейчас, когда эти большие языковые модели находятся в разработке, это действительно важно сделать таким образом, чтобы получить наиболее оптимальный ответ».

Кроме того, исследователи обнаружили, что изначально неправильные ответы ChatGPT становились более точными, если исходный вопрос был повторно отправлен через неделю или две.

Это показывает, что искусственный интеллект быстро становится умнее со временем, – сказал Джонсон.

«Я думаю, что он, вероятно, еще больше улучшился с тех пор, как мы провели наше исследование», – сказал Джонсон. «Я думаю, что в данной точке врачи могли бы подумать о его использовании, но только в сочетании с другими известными ресурсами. Я бы никогда не принимал какие-либо рекомендации за истину, ни в коем случае».

Точность также улучшалась, если другая версия искусственного интеллекта была привлечена для проверки первого ответа.

«Одна версия создала ответ на вопрос, а вторая версия стала своего рода рецензентом искусственного интеллекта, который проверял содержание и задавал вопрос: “это действительно точно?”», – сказал Вальдерен. «Им было интересно использовать это, чтобы увидеть, помогло ли это решить некоторые из этих неточных ответов».

Джонсон ожидает, что точность дальше улучшится, если разработаются искусственные интеллектуальные чатботы, специально предназначенные для медицинского использования.

«Вы, конечно, можете представить себе будущее, где эти чатботы обучены на очень надежной медицинской информации и способны достичь такой надежности», – сказал Джонсон. «Но я думаю, что на данный момент мы этого не достигли».

Как Джонсон, так и Вальдерен считают, что искусственный интеллект вряд ли полностью заменит врачей.

Джонсон считает, что искусственный интеллект, вместо этого, будет служить еще одним полезным инструментом для врачей и пациентов.

Врачи могут обратиться к искусственному интеллекту для получения дополнительной информации о сложном диагнозе, а пациенты могут использовать программу в качестве “здорового коуча”, – сказал Джонсон.

«Вы, конечно, можете представить себе будущее, где у кого-то простуда или что-то в этом роде, и чатбот может ввести важные показатели и симптомы и дать некоторые рекомендации, например, “нужно ли вам идти к врачу или это, вероятно, всего лишь вирус? И вы можете обратить внимание на эти пять вещей, и если они произойдут, тогда пойдите к врачу. Но если нет, то, вероятно, вам будет хорошо”», – сказал Джонсон.

Существует опасение, что экономически обоснованные системы здравоохранения могут попытаться использовать искусственный интеллект в качестве ресурса первой линии, предлагая пациентам обратиться к программе за советом до назначения встречи с врачом, – сказал Вальдерен.

«Не в том, что врачи будут заменены. Задачи, которые выполняют врачи, будут меняться. И это изменит значение быть врачом», – сказал Вальдерен о искусственном интеллекте. «Я думаю, что вызовом для пациентов будет то, что будут созданы финансовые давления, чтобы попытаться отделить эти задачи от самых дорогостоящих реализаций, а врач может быть довольно дорогим».

Поэтому, по его прогнозам, вероятно, больше пациентов будут направлены на линию медсестер с искусственным интеллектом.

«Это может быть хорошо, с увеличенным доступом к уходу», – добавил Вальдерен. «Это также может быть плохой вещью, если мы не продолжим поддерживать непрерывность ухода и координацию ухода».

Дополнительная информация

Гарвардская медицинская школа предоставляет больше информации о искусственном интеллекте в медицине.

ИСТОЧНИКИ: Дуглас Джонсон, доктор медицины, директор программы клинических исследований меланомы, Центр рака Вандербильта-Инграм, Нэшвилл, Тенн.; Стивен Вальдерен, доктор медицины, главный медицинский информатик, Американская академия семейных врачей, Лиууд, Кан.; JAMA Network Open, 2 октября 2023 года, онлайн

СЛАЙД-ШОУ