哈佛新研究:AI 模型“急诊科”场景诊断能力有望超越人类医生

买玉网 1 0

5 月 2 日消息,当地时间 5 月 1 日,据外媒 TechSpot 报道,AI 正开始进入医学中最难的一类场景:信息不完整时如何作出正确的判断。《科学》期刊一项新研究显示,OpenAI 的一款推理模型在真实临床病例中接受测试后,在诊断患者和制定治疗方案方面达到人类医生水平,很多情况下甚至表现更好。

这项研究由哈佛医学院和贝斯以色列女执事医疗中心研究人员完成。与传统受控基准测试不同,研究重点放在真实临床环境下的表现,也就是模型面对不完整、不规整、不断变化的医疗信息时能否作出有效判断。

其中一个病例中,一名患者因肺栓塞进入急诊科。治疗后一度好转,随后病情再次恶化。医生最初怀疑药物没有发挥作用。AI 模型则基于当时同样可获得的电子健康记录,提示患者可能有狼疮病史。

据悉,狼疮是一种自身免疫性疾病,可能导致心脏炎症。后续结果证明,模型给出的方向是正确的。

研究团队在多个诊疗环节测试了这个模型,从急诊分诊到住院阶段都有覆盖。每一步中,模型都只能使用当时已经掌握的信息。总体结果显示,在相同限制条件下,模型表现超过了两名经验丰富的医生。

贝斯以色列女执事医疗中心临床研究人员、研究作者之一亚当 · 罗德曼表示:“对我来说,最大的结论是,它能处理急诊科那些混乱的真实世界数据。它能在真实世界中用于诊断。”

研究人员还使用《新英格兰医学杂志》临床病例报告,以及其他标准化诊断挑战来测试模型。这类病例主要考察复杂诊断推理能力。结果显示,模型再次超过了作为对照的一大组医生。

参与研究的哈佛医学院生物医学信息学助理教授拉杰 · 曼赖表示:“模型表现超过了我们规模很大的医生基准组。”

不过,这项研究也有重要限制。模型完全依赖文本病历,没有处理影像、声音和非语言线索,而这些信息在真实临床工作中非常关键。即便如此,它在不确定条件下的表现仍比早期系统更强,尤其是在鉴别诊断中更突出。鉴别诊断要求医生同时考虑多种可能疾病,再逐步排除和收窄范围。

作为对比,过去的大模型在病例信息模糊或不完整时,经常难以稳定推理。

外部专家认为,这项进展确实重要,但真正落地仍有很多问题。

研究作者同样强调,这项研究并没有证明 AI 应该取代医生,仅仅说明 AI 有机会成为临床决策支持工具,尤其适用于急诊这类节奏快、时间紧、信息不完整的场景。曼赖说:“我认为,这确实意味着我们正在见证一场非常深刻的技术变化,它将重塑医学。”

真正困难的下一步,是把这类系统放进真实临床环境中接受测试。研究人员需要设计严谨试验,不只看模型答得准不准,还要看它是否真正改善患者结局。赖希表示:“设计这类试验是一个非常有挑战性的过程,但这项研究正是一个非常合适的行动号召。”

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~