当通用AI开始"跨界":医学评估赛道的意外颠覆

软件科技1小时前发布 botnews
55 0 0
当通用AI开始

通用AI开始"跨界":医学评估赛道的意外颠覆

你可能还记得,当ChatGPT在2022年末横空出世时,医学界的第一反应是审慎的观望——它能写病历吗?能辅助诊断吗?会不会胡说八道害死人?三年后的今天,一项发表在Nature Medicine上的研究给了我们一个意想不到的答案:通用大语言模型不仅能在医学领域站稳脚跟,甚至在某些关键指标上,把那些专门为临床场景打造的工具按在地上摩擦。

这个结论不是某个科技媒体的标题党,而是来自12名美国执业临床医生实实在在的盲测打分。

专门做的不如通用学得好

长期以来,医学AI领域存在一个看似合理的假设:专门训练过的工具一定比通用模型更可靠。毕竟医学知识浩如烟海,临床决策关乎人命,谁会放心用一个什么都聊的聊天机器人来看病?

OpenEvidenceUpToDate正是这个逻辑的产物。前者是一家专注于医疗文献综述的AI公司,后者则是全球医生几乎人手一个的临床决策支持工具,后者在2024年还获得了微软的巨额投资来强化其AI能力。按常理推断,这些"科班出身"的医疗AI应该在医学信息评估任务上占据绝对优势。

但Nature Medicine的研究团队做了这么一件事:他们找来Google的Gemini、OpenAI的GPT系列、Anthropic的Claude等前沿通用大模型,然后找来OpenEvidence和UpToDate这两款专门的临床AI工具,让12名美国临床医生在不知道哪个答案来自哪个系统的情况下,对它们的医学回答进行独立评估。

结果出来的时候,我敢说整个医疗AI圈都愣了一下:三项评估指标,Frontier LLMs全胜。

这不是说专门的临床AI工具一无是处——它们在某些场景下依然有价值——但至少在"医学信息评估"这个维度上,通用模型的泛化能力展现出了惊人的竞争力。

那12位医生的评分标准是什么

研究团队设计了三个维度的评估体系,这里我需要解释一下专业术语,好让大家理解这个测试的严谨性。

第一项是RCQ测试(Response Correctness Questionnaire),简单说就是评估AI给出的医学信息是否准确、专业。第二项是Helpfulness评估,考验的是回答是否真正对临床决策有参考价值。第三项是Safety评分,光答案对还不够,还得看有没有潜在的风险提示和免责声明。

我注意到一个有意思的细节:研究特别指出,在RCQ测试中,专门临床AI工具的表现与"自动启用的Google Search AI Overview"基本相当。这里说的是Google搜索在2024年全面铺开的AI摘要功能——一个任何普通人在搜索症状时都能免费用到的功能。

这意味着什么?意味着如果一个患者只是出于好奇在网上查自己的症状,他用Google搜到的AI摘要,在准确性上跟花大价钱买的UpToDate专业版可能差距没那么大。当然,两者完整功能不能这么粗暴对比,但这个信息对医疗AI的价值定位确实是一个值得深思的冲击。

这背后的逻辑比结果更有意思

我在科技圈观察AI应用这几年,越来越有一个感受:数据规模与模型能力的边界,远比我们以为的更有弹性。

通用大模型之所以能"跨界"成功,我认为有三个原因。首先是预训练数据的质量和规模——GPT-4、Claude、Gemini这些模型的训练数据中,医学文献、临床指南、病例报告本身就是重要组成部分,它们的医学知识储备可能比很多人想象的要深。其次是指令微调和RLHF(基于人类反馈的强化学习)的作用,模型学会了"什么时候该谨慎、什么时候该自信",这种能力往往是专门的医疗模型在有限数据下难以习得的。最后一点我觉得最关键:医学问题本质上是语言理解和逻辑推理问题,而Frontier LLMs恰恰在这两项能力上处于领先地位。

当然,我必须指出研究本身的局限性。这项测试评估的是"医学信息评估"能力,而非真正的临床诊断能力。一个模型能在测试中给出正确答案,和它能在真实的医患对话、病史采集、多模态影像分析中发挥作用,是完全不同的两码事。医疗AI落地临床的门槛,远不止"回答准确"这么简单——监管合规、责任认定、数据隐私、与医院系统的集成,每一项都是硬骨头。

下一步会怎么走

不过,这项研究的意义不在于给某个产品站台,而在于重新校准我们对医疗AI的预期。

我记得2023年行业里有个流行的论调:通用AI在垂直领域迟早会被专业方案收编,因为"专业的活交给专业的人"。现在看来,这个判断可能过于线性了。通用模型的快速迭代能力和成本优势,正在蚕食专用工具的市场空间——至少在中游的信息处理环节。

对于医疗AI的从业者来说,这可能是个甜蜜的烦恼:机会更大了,因为应用场景在扩展;竞争也更激烈了,因为门口的野蛮人比你预想的更能打。

对于我们这些科技观察者而言,这项研究的启示或许更朴素:别轻易给某个技术路线判死刑。AI能力的演化,从来不按我们画好的剧本走。

© 版权声明

相关文章

暂无评论

暂无评论...

网址设置

网址样式切换

详细

网址卡片按钮

显示

布局设置

左侧边栏菜单

展开

页面最大宽度

1700px

搜索框设置

搜索框背景上下位置

仅对图片背景生效

50%

自定义搜索框背景

  • 静图

    随机壁纸

  • 静图

    随机4K

自定义搜索框高度

  • 聚焦
  • 信息
  • 默认
设置