哈佛新研究：AI 模型“急诊科”场景诊断能力有望超越人类医生

买玉网 2026年05月03日 20:55:17 5 0

5 月 2 日消息，当地时间 5 月 1 日，据外媒 TechSpot 报道，AI 正开始进入医学中最难的一类场景：信息不完整时如何作出正确的判断。《科学》期刊一项新研究显示，OpenAI 的一款推理模型在真实临床病例中接受测试后，在诊断患者和制定治疗方案方面达到人类医生水平，很多情况下甚至表现更好。

这项研究由哈佛医学院和贝斯以色列女执事医疗中心研究人员完成。与传统受控基准测试不同，研究重点放在真实临床环境下的表现，也就是模型面对不完整、不规整、不断变化的医疗信息时能否作出有效判断。

其中一个病例中，一名患者因肺栓塞进入急诊科。治疗后一度好转，随后病情再次恶化。医生最初怀疑药物没有发挥作用。AI 模型则基于当时同样可获得的电子健康记录，提示患者可能有狼疮病史。

据悉，狼疮是一种自身免疫性疾病，可能导致心脏炎症。后续结果证明，模型给出的方向是正确的。

研究团队在多个诊疗环节测试了这个模型，从急诊分诊到住院阶段都有覆盖。每一步中，模型都只能使用当时已经掌握的信息。总体结果显示，在相同限制条件下，模型表现超过了两名经验丰富的医生。

贝斯以色列女执事医疗中心临床研究人员、研究作者之一亚当 · 罗德曼表示：“对我来说，最大的结论是，它能处理急诊科那些混乱的真实世界数据。它能在真实世界中用于诊断。”

研究人员还使用《新英格兰医学杂志》临床病例报告，以及其他标准化诊断挑战来测试模型。这类病例主要考察复杂诊断推理能力。结果显示，模型再次超过了作为对照的一大组医生。

参与研究的哈佛医学院生物医学信息学助理教授拉杰 · 曼赖表示：“模型表现超过了我们规模很大的医生基准组。”

不过，这项研究也有重要限制。模型完全依赖文本病历，没有处理影像、声音和非语言线索，而这些信息在真实临床工作中非常关键。即便如此，它在不确定条件下的表现仍比早期系统更强，尤其是在鉴别诊断中更突出。鉴别诊断要求医生同时考虑多种可能疾病，再逐步排除和收窄范围。

作为对比，过去的大模型在病例信息模糊或不完整时，经常难以稳定推理。

外部专家认为，这项进展确实重要，但真正落地仍有很多问题。

研究作者同样强调，这项研究并没有证明 AI 应该取代医生，仅仅说明 AI 有机会成为临床决策支持工具，尤其适用于急诊这类节奏快、时间紧、信息不完整的场景。曼赖说：“我认为，这确实意味着我们正在见证一场非常深刻的技术变化，它将重塑医学。”

真正困难的下一步，是把这类系统放进真实临床环境中接受测试。研究人员需要设计严谨试验，不只看模型答得准不准，还要看它是否真正改善患者结局。赖希表示：“设计这类试验是一个非常有挑战性的过程，但这项研究正是一个非常合适的行动号召。”

本文地址： http://maiyu.cc/838414.html

文章来源：买玉网