AI

微软推出的 AI 诊断工具在复杂病例中明显优于人类医生

微软的新诊断协调器解决复杂医疗案例的成功率是经验丰富医生的四倍。

Eulerpool News

微软开发了一种基于人工智能的诊断系统，在医学案例研究中达到了85.5%的成功率，是人类对照组的四倍多。这款“AI诊断指挥器”首次在来自《新英格兰医学杂志》的304个特别复杂的患者病例中进行了测试。相比之下，没有工具辅助的经验丰富的医生在大约20%的病例中正确诊断。

这项新技术是由Mustafa Suleyman领导的Microsoft Health AI部门的第一个项目，他之前曾是AI实验室DeepMind的联合创始人。系统的核心是一个“协调器”，它像一个虚拟医生团队一样组织多个专业的AI代理。这些代理基于一种名为“链式辩论”的新方法，提出假设、选择测试并讨论最佳诊断。

所使用的模型包括OpenAI、Meta、Google、Anthropic、xAI和DeepSeek的大型语言模型。尽管所有模型都从协调中受益，但OpenAI的“o3”模型表现最佳。除了高精确度外，该系统还以成本优化的方式运行：通过有针对性的测试选择，在模拟中节省了数十万美元。

前DeepMind Health负责人Dominic King认为该项目是迄今为止功能最强大的医疗AI系统。他同时强调其实验性质：结果尚未经过同行评审，且目前尚未批准用于临床日常使用。

不过，该研究强调了生成式人工智能在医疗保健中的颠覆性潜力，尤其是在全球供应短缺和医疗成本上升的背景下。Suleyman宣布计划不久将部分技术整合到微软的Copilot和Bing中，它们每天处理约5000万次健康查询。

尽管与OpenAI紧密合作，微软仍坚持模型无关的方法。苏莱曼表示，“从长远来看，大型语言模型将成为商品——其真正价值在于智能协调。”