人工智能能帮助医生提出更好的诊断吗?-《华尔街日报》
Laura Landro
随着医院开始采用新的算法和聊天机器人,他们也意识到使用人工智能的局限性和风险。插图: Kiersten Essenpreis人工智能被誉为医生面临的最棘手挑战之一的圣杯:做出正确的诊断。
尽管医学影像和其他技术取得了多年的进步,但诊断错误仍然是最常报告的医疗失误,每年影响约1200万名门诊患者。 住院患者的数据表明每年有近25万起有害的诊断错误,大多数人可能在一生中至少经历一次诊断错误,有时会带来毁灭性后果。
现在,学术医疗中心的研究人员正在与人工智能开发者和信息技术巨头合作,找出如何最好地将机器学习和人类专业知识相结合,以提高诊断准确性。他们正在培训医生将这项技术融入他们的日常工作流程,将其作为“增强智能”——一种帮助医生做出正确诊断和找到正确治疗方案的工具,而不是取代他们自己判断的工具。
但随着医院开始采用新的算法和聊天机器人,他们也意识到这项技术的局限性和风险。虽然人工智能可以处理和解释大量的医疗数据,但诊断也有人类的艺术,新技术无法复制医生所看到的许多细微差别。此外,患者和医生都需要相信人工智能,尽管人们对其准确性存在担忧。
以下是一些关于将医生和人工智能结合以减少诊断错误的早期经验教训。
人工智能无法取代经验
所谓的预测人工智能是由医学专家根据特定任务的数据进行训练,用于从包括X光、CT扫描和MRI在内的图像中找出模式,以及病理切片和其他医学测试,帮助预测癌症风险并识别某些疾病。但另一种类型的生成人工智能包括聊天机器人,它们经过对来自互联网和其他来源的大量信息进行训练,使其能够提出诊断建议,并提醒医生有关患者病情的模式或趋势,这些模式或趋势医生可能不容易注意到。
目前,诊断专家表示,任何形式的人工智能都无法取代人类临床医生与患者建立个人联系的能力,观察体格检查或检查结果中的细微线索和细微差别,发现患者故事或病史中的漏洞,并重新审视那些不合理的事情。
“人工智能有潜力减少诊断错误,但目前的人工智能无法处理与进行临床诊断相关的现实混乱,这涉及与患者的动态互动以及比诊断视觉图像更多的不确定性,”研究诊断准确性的哈迪普·辛格博士说道,他是迈克尔·E·德巴基退伍军人事务医疗中心卫生政策、质量和信息学联合主任,并且是休斯顿贝勒医学院的教授。
“好的诊断医生不会轻易相信任何事情,”例如,一个感到不舒服或不愿谈论物质滥用或创伤等问题的患者,加州大学伯克利分校公共卫生学院的健康政策与管理副教授Ziad Obermeyer博士说道。“算法永远无法看到患者的表情或者是否回避某一套问题或话题。”
人工智能的优劣取决于其使用的数据
诊断中人工智能的一个主要关注点是用于创建或训练人工智能算法的数据质量。ChatGPT,最知名的聊天机器人模型,是基于文章、图片和其他数据进行训练的,可以生成对话文本。它已经展现出了令人印象深刻的能力,可以回答医学考试问题并从患者病例研究中提出诊断建议。但它的来源没有经过事实核查,并且依赖人类反馈来提高准确性。
聊天机器人也可能出现所谓的幻觉,生成虚假或无关紧要的信息。而一项英国研究发现,虽然一个聊天机器人通过模拟患者病例可以提出相关的诊断,但在35个病例中有21个病例错过了一个或多个重要的诊断,原因无法确定。“危险在于它错过了关键的、往往是危及生命的诊断,这些诊断应该是每位经验丰富的临床医生首先考虑的,”伦敦盖伊和圣托马斯医院的临床人工智能研究员Joshua Au Yeung博士说道。
技术的进步可能有助于解决一些问题。一项研究中,斯坦福大学的研究人员发现,当前版本的ChatGPT,即GPT-4,在回答需要临床推理的考试问题方面比之前的版本GPT-3.5表现得更好——它没有产生任何幻觉,并且胜过了一、二年级的医学生。
ChatGPT的开发者OpenAI表示,新版本比GPT-3.5更有可能产生事实内容的概率提高了40%,但还有更多工作要做,以进一步减少产生幻觉的可能性。OpenAI的官方立场是,其模型没有经过精细调整以提供医学信息,并且绝不应该用于提供严重医学状况的诊断服务。
斯坦福大学医学院的临床副教授、该研究的作者Eric Strong博士表示,两个版本之间的改进表明人工智能将继续变得更加优秀。“我们并不是说聊天机器人很快就会取代医生,”但如果研究表明医生在人工智能的帮助下表现更好,“不使用它在他们的实践中难道不是不道德的吗?” Strong博士说。
一些医疗保健提供者正在利用自己的电子病历记录创建可靠的算法。但是,信息不完整或不准确的患者信息可能会引入新的诊断错误和疏忽的风险。
在明尼苏达州罗切斯特的梅奥诊所,研究人员花了几年时间挖掘医疗数据的错误和不一致之处。“在开发人工智能模型之前,你必须筛选和清理数据,”梅奥诊所平台部门主任John Halamka博士说。
为了设计可以帮助诊断一系列疾病的算法,梅奥正在与另一个大型医疗系统——圣路易斯的Mercy合作。他们正在分享已剥离识别信息的患者数据,以从数百万患者接触中搜索模式,以更早地确定疾病并确定最佳治疗方案。
人工智能必须易于使用
人工智能模型必须能够无缝地融入医生的日常实践中,以便他们采用决策辅助工具。“将其纳入工作流程是一门艺术,”梅奥医院的哈拉姆卡说。“你最不想对临床医生说的是,‘去使用另一个应用,再花更多时间。’”
例如,梅奥医院设计了一种算法,可以检测房颤的迹象,而这些迹象在常规护理中是无法检测到的。这种不规律的心律可能会增加血栓或中风的风险,并恶化现有的心脏病。目前,这种算法已经可以供医生在梅奥医院的电子健康记录中进行一键审查,而这适用于所有因任何原因接受心电图检查的患者。
心脏病专家彼得·诺斯沃西博士,也是梅奥技术研究的合著者,表示这些信息有助于评估风险,但决定是否需要进一步的检查和治疗,还取决于医生,“为了为每个患者做出最佳决策。”
人工智能可能存在偏见
加州大学伯克利分校的奥伯迈尔的研究也显示了种族偏见如何渗入医疗保健算法中。例如,如果一个算法是针对预测医疗成本而不是疾病来衡量医疗需求,它将会降低黑人患者的优先级,因为他们的成本较低。但这是因为他们无法平等获得医疗保健,所以在他们身上花费较少。他研究的一个算法错误地得出结论,即黑人比同样患病的白人更健康,需要更少的医疗保健。他领导的研究得出结论,通过重新调整算法以侧重更相关的预测因素,可以消除预测中的种族偏见,该研究得出结论。
其他研究人员正在努力解决诊断中的不公平现象。以外周动脉疾病为例,这种疾病影响多达1000万美国人,但在少数族裔患者中尤其存在漏诊和治疗不足的情况。外周动脉疾病(PAD)会使血液循环到腿部和脚部的血管变窄,导致足部创伤和溃疡,可能最终导致截肢和死亡。
在杜克大学的杜克健康创新研究所,研究人员开发了一种算法,根据诊断代码和其他病史来识别PAD患者,使用的数据中包括大量黑人患者的信息。在一项试点项目中,一个包括PAD专家的团队使用该算法来识别新患者并更新现有患者的状态,优先考虑即将进行医疗访问的高风险患者,以便他们可以向他们的初级保健提供者发送建议。
马克·森达克博士是一位专注于人口健康和数据科学的杜克大学医生,他表示该项目的一个目标是通过识别需要进行更多测试以确认诊断的患者,以及已经被诊断但没有得到预防肢体截肢所需护理的患者,来缩小诊断和护理方面的种族差距。
通过识别这些偏见,“我们可以改变流程并消除诊断障碍,” 森达克说。
如果医生抵制人工智能,寻求妥协
要使人工智能成为诊断辅助工具,医生需要接受这项技术。在依赖图像解释的放射学中,研究表明人工智能在诊断某些疾病方面的表现可能优于放射科医生,但在其他方面可能表现不佳。但人工智能的日益使用引发了人们对放射科医生的工作安全和对使用这项技术的一些抵制。
在最近的一项研究中,哈佛大学和麻省理工学院的研究人员随机将180名放射科医生分成四组,让他们诊断胸部X光片,并在开始时给予不同的信息。其中两组只得到了带有人工智能预测的胸部X光片或者只有病史信息。另外两组则得到了既有人工智能预测又有病史信息,或者两者都没有。
要求这些放射科医生提供特定疾病的概率和治疗或随访建议,准确性由五名获得认证的放射科医生的预后来衡量。
研究发现,在拥有病史信息的组中,人工智能的预测比将近三分之二的放射科医生更准确,尽管这组的表现要比没有这些信息的组好。
然而,平均而言,获得人工智能预测并没有提高放射科医生的诊断准确性。放射科医生的偏见包括低估人工智能的帮助,并忽视与他们自己预测的任何相关性。还有其他不利因素。获得人工智能预测的放射科医生做出决定所需的时间更长。而人工智能的预测损害了对自己结论有信心的放射科医生的准确性(尽管预测有助于那些不自信的放射科医生)。
“人工智能模型和放射科医生都有各自独特的优势和改进空间,”这项研究的合著者、麻省理工学院经济学教授尼克希尔·阿加尔瓦尔博士表示。例如,放射科医生经常发现所谓的偶然发现——人工智能没有被编程去寻找的医疗问题,这可能导致需要进一步检测疾病。
研究人员得出结论,最佳的合作方式是让AI算法对胸部X光片进行初步预测;如果预测的置信水平超过90%,则可以依靠诊断而无需放射科医生进行复查。对于置信度较低的预测,没有查看预测结果的放射科医生将会复查X光片,如果他们同意AI的诊断,就采用该诊断。如果他们不同意,就会升级案例以获得第二意见。
Laura Landro,前《华尔街日报》助理主编,是《幸存者:控制你对抗癌症的斗争》一书的作者。她的联系方式为[email protected]。
刊登于2023年9月25日的印刷版上,标题为“AI能帮助医生做出更好的诊断吗?”。