你应该使用ChatGPT寻求医疗建议吗？- WSJ

Lisa Ward

2024-01-20

医疗保健中人工智能的潜力巨大，但担忧包括可能存在的不准确性和偏见。插图： Rob Dobi如果你感到胸痛，你应该向像ChatGPT这样的聊天机器人寻求医疗建议吗？你的医生是否应该求助于人工智能进行诊断？

这些是聊天机器人为医疗保健行业和服务对象提出的问题。这项技术的可能性巨大：对于患者来说，尖端人工智能可能意味着能够更快、更便宜地获得医疗问题的更好答案，而不是预约医生。与此同时，临床医生可以轻松获取和综合复杂的医学概念，并避免大量与工作相关的令人昏昏欲睡的文书工作。

然而，对用于训练这些模型的基础数据和方法的透明度的缺乏已引发了对准确性的担忧。人们还担心这项技术将产生偏见，给出可能伤害某些人群的答案。还有一些人工智能会自信地给出错误答案，或者干脆凭空捏造事实。

为了更多地了解如何使用这项新技术，以及如何不使用，华尔街日报采访了三位专家：斯坦福大学生物医学数据科学助理教授詹姆斯·邹（James Zou）、宾夕法尼亚大学佩雷尔曼医学院肺部和重症医学助理教授加里·韦斯曼（Gary Weissman），以及哈佛法学院教授、健康法政策、生物技术和生物伦理学Petrie-Flom中心教职主任I·格伦·科恩（I. Glenn Cohen）。

这里是对谈话的编辑摘录：

我们能相信这些建议吗？

**WSJ:**像ChatGPT及其竞争对手这样的大型语言模型能为患者提供可靠的医疗建议吗？

WEISSMAN: 目前，ChatGPT能够提供一般的医疗信息，就像你在维基百科上找到关于某个主题的背景信息一样，大部分是正确的，但并非总是如此。它无法以安全、可靠和公平的方式为个人提供个性化的医疗建议。

I. Glenn CohenCOHEN: 获取有关医疗保健的信息与获得临床医生的意见是不同的。但如果我们在讨论ChatGPT与在Google上搜索问题或在Reddit上查找信息的区别，那么有充分的理由认为ChatGPT具有一些真正的潜力。

ZOU: 它的有效性确实取决于你提出的问题的类型。询问预测性问题或任何个人建议并不是很好。它可能更适用于信息检索或探索性问题，比如，“告诉我一些关于这种特定药物的信息。”我还听说过患者将一份充满术语且难以理解的医疗同意书粘贴到GPT中，并要求它用简单的英语解释文件。

WSJ: 你认为患者使用ChatGPT相比于使用Reddit或Google有何不同？

**魏斯曼：**内容可能在质量和偏见方面相似于ChatGPT，网络搜索或公共讨论论坛。ChatGPT带来的额外风险包括：给人以其回答具有知识性的印象；捏造答案；以及不能立即区分其回答的来源，比如疾病控制和预防中心网站与虚假信息网站。而直接阅读网页时，信息源通常更清晰，但并非总是如此。

[OpenAI发言人表示，公司的模型未经过精细调整以提供医学信息，并警告不要使用模型为严重医学状况提供诊断或治疗服务。发言人表示，公司正在继续研究这个问题。]

帮助护理人员

**WSJ：**ChatGPT在临床实践中可能如何使用？

**魏斯曼：**我认为一些医生可能已经在将其用作临床诊断支持系统，输入症状然后询问可能的诊断。但它可能更常用作数字助手来生成初稿医疗文件，总结患者病史和身体信息，或创建患者问题清单。临床医生面临着繁重的文档工作负担和很多职业倦怠，这可能是这项技术吸引人的原因。但临床医生可能需要审查和编辑输出以确保准确性和适当性。

**WSJ：**您认为医生已经在使用ChatGPT来支持诊断决策，这是否存在风险？

Gary Weissman**WEISSMAN：**ChatGPT不应该用于支持临床决策。没有证据表明它对这个目的是安全、公平或有效的。据我所知，食品药品监督管理局也没有授权它以这种方式使用。

**ZOU：**ChatGPT和这些LLM模型变化非常快。如果你在几个星期内多次向同一个模型提出相同的问题，模型通常会给出不同的答案。我们的研究发现，GPT-4在美国医学执照考试中的表现从2023年3月到6月下降了4.5%。患者和临床医生应该意识到，ChatGPT可能在不同的日子对相同的医学问题给出完全不同的回答或建议。

**WSJ：**患者在医生使用ChatGPT、其他大型语言模型或人工智能时应该被告知吗？

COHEN：患者有权知晓他们正在与AI聊天机器人交互，特别是如果他们可能认为自己正在与实际的临床医生交谈。关于在您的护理中是否有权知晓所有AI的问题另当别论。例如，如果X光的初步检查是由AI完成并由放射科医生复核，我不确定知情同意权是否适用。当AI是决策的辅助时，我们处于一个非常不同的类别，而当患者与AI交互并且毫不知情时，情况就完全不同了。

魏斯曼：对于正式报告，比如放射学、病理学或实验室报告，如果是由人工智能提供信息的，我认为这应该被记录下来。在临床医生在咨询多个信息源以获取意见时——比如医学教科书、期刊文章、人工智能系统——我认为这并不需要正式报告，但在这种情况下，临床医生显然对所做的决定负责。唯一的例外是，当临床医生与患者和/或护理人员合作做出困难决定时。

不公平的结果

**WSJ：**ChatGPT 的偏见在医疗保健中是如何表现的？

魏斯曼： 我们的研究发现，ChatGPT 对临床建议的改变取决于提问患者的医保状况。在一个案例中，ChatGPT 建议一名没有医保的老年患者，出现急性胸痛，这是一种医疗紧急情况，去社区卫生中心而不是急诊科，这是完全不安全和不恰当的护理。

詹姆斯·祖科恩： 许多语言模型也是在英语互联网和英语信息源上进行训练的。这意味着我们忽视了其他语言中的一整套知识。举个医学之外的例子。只看英语信息源上的伊斯兰历史可能会得出与在每种语言中查看与伊斯兰历史相关的所有内容时完全不同的结论。

**邹：**中国和其他国家也在大力投资培训模型。这仍意味着许多语言在训练大型语言模型时被忽视。一个后果是，当患者和临床医生用非英语语言与它交互时，LLM可能不太可靠。另一方面，ChatGPT在常见语言之间的翻译方面相当不错，因此也可以被一些用户用作翻译工具。

**科恩：**除了训练数据，还存在潜在的偏见内置在强化学习过程中，人们决定哪些答案会被强化。一篇文章由美国心理学协会发表，讨论了不同文化群体（拉丁裔青少年与亚裔美国大学生与白人退休人员）在何时治疗师应该担心自杀风险方面有不同的标志。如果人工智能只针对最后一组进行训练，它可能对其他群体的信号不敏感。

[OpenAI发言人表示，该公司已努力训练其模型以识别并陈述关于种族或其他受保护特征的潜在危险。发言人表示，对这个问题的研究正在进行中。]

**WSJ：**ChatGPT生成虚假医学文章或图像的能力如何？

COHEN：大型语言模型使得制造医学错误信息变得异常容易。你可以随时生成假的学术论文，还能伪造看起来像是真实引用的内容，或者可能是给医生传真的假放射学报告。

[OpenAI发言人表示，ChatGPT偶尔会编造事实，用户应核实提供给他们的信息。]

WSJ: 还有什么想说的吗？

COHEN: 我们关注了很多悲观的情况，但这实际上非常令人兴奋，而且其中蕴藏着巨大的价值。但关于这些基础模型的一件事是，如果你没有正确地打好基础，整个房子就会倒塌，甚至整个城市都会崩塌，所以我们找到的基础模型也非常重要。

ZOU: 绝对。这些技术有很多令人兴奋的用途和潜力，但有时我们忘记了它们实际上有多新颖。我们对如何负责任地使用它还处于早期阶段。

WEISSMAN: 大型语言模型目前备受瞩目有两个原因：一是它是一项令人兴奋的技术，具有许多潜在的临床应用。另一个原因是一些公司有机会赚取巨大利润。因此，存在一种紧张关系：我们如何能够快速利用这项我们并不真正了解、缺乏充分证据并且监管不足的新技术赚钱，与我们如何找到这项新技术的安全、有效、公平和道德用途之间的紧张关系。

Lisa Ward是佛蒙特州的一名作家。她的联系方式是[email protected]。