当通用AI开始"跨界"：医学评估赛道的意外颠覆

你可能还记得，当ChatGPT在2022年末横空出世时，医学界的第一反应是审慎的观望——它能写病历吗？能辅助诊断吗？会不会胡说八道害死人？三年后的今天，一项发表在Nature Medicine上的研究给了我们一个意想不到的答案：通用大语言模型不仅能在医学领域站稳脚跟，甚至在某些关键指标上，把那些专门为临床场景打造的工具按在地上摩擦。

这个结论不是某个科技媒体的标题党，而是来自12名美国执业临床医生实实在在的盲测打分。

专门做的不如通用学得好

长期以来，医学AI领域存在一个看似合理的假设：专门训练过的工具一定比通用模型更可靠。毕竟医学知识浩如烟海，临床决策关乎人命，谁会放心用一个什么都聊的聊天机器人来看病？

OpenEvidence和UpToDate正是这个逻辑的产物。前者是一家专注于医疗文献综述的AI公司，后者则是全球医生几乎人手一个的临床决策支持工具，后者在2024年还获得了微软的巨额投资来强化其AI能力。按常理推断，这些"科班出身"的医疗AI应该在医学信息评估任务上占据绝对优势。

但Nature Medicine的研究团队做了这么一件事：他们找来Google的Gemini、OpenAI的GPT系列、Anthropic的Claude等前沿通用大模型，然后找来OpenEvidence和UpToDate这两款专门的临床AI工具，让12名美国临床医生在不知道哪个答案来自哪个系统的情况下，对它们的医学回答进行独立评估。

结果出来的时候，我敢说整个医疗AI圈都愣了一下：三项评估指标，Frontier LLMs全胜。

这不是说专门的临床AI工具一无是处——它们在某些场景下依然有价值——但至少在"医学信息评估"这个维度上，通用模型的泛化能力展现出了惊人的竞争力。

那12位医生的评分标准是什么

研究团队设计了三个维度的评估体系，这里我需要解释一下专业术语，好让大家理解这个测试的严谨性。

第一项是RCQ测试（Response Correctness Questionnaire），简单说就是评估AI给出的医学信息是否准确、专业。第二项是Helpfulness评估，考验的是回答是否真正对临床决策有参考价值。第三项是Safety评分，光答案对还不够，还得看有没有潜在的风险提示和免责声明。

我注意到一个有意思的细节：研究特别指出，在RCQ测试中，专门临床AI工具的表现与"自动启用的Google Search AI Overview"基本相当。这里说的是Google搜索在2024年全面铺开的AI摘要功能——一个任何普通人在搜索症状时都能免费用到的功能。

这意味着什么？意味着如果一个患者只是出于好奇在网上查自己的症状，他用Google搜到的AI摘要，在准确性上跟花大价钱买的UpToDate专业版可能差距没那么大。当然，两者完整功能不能这么粗暴对比，但这个信息对医疗AI的价值定位确实是一个值得深思的冲击。

这背后的逻辑比结果更有意思

我在科技圈观察AI应用这几年，越来越有一个感受：数据规模与模型能力的边界，远比我们以为的更有弹性。

通用大模型之所以能"跨界"成功，我认为有三个原因。首先是预训练数据的质量和规模——GPT-4、Claude、Gemini这些模型的训练数据中，医学文献、临床指南、病例报告本身就是重要组成部分，它们的医学知识储备可能比很多人想象的要深。其次是指令微调和RLHF（基于人类反馈的强化学习）的作用，模型学会了"什么时候该谨慎、什么时候该自信"，这种能力往往是专门的医疗模型在有限数据下难以习得的。最后一点我觉得最关键：医学问题本质上是语言理解和逻辑推理问题，而Frontier LLMs恰恰在这两项能力上处于领先地位。

当然，我必须指出研究本身的局限性。这项测试评估的是"医学信息评估"能力，而非真正的临床诊断能力。一个模型能在测试中给出正确答案，和它能在真实的医患对话、病史采集、多模态影像分析中发挥作用，是完全不同的两码事。医疗AI落地临床的门槛，远不止"回答准确"这么简单——监管合规、责任认定、数据隐私、与医院系统的集成，每一项都是硬骨头。

下一步会怎么走

不过，这项研究的意义不在于给某个产品站台，而在于重新校准我们对医疗AI的预期。

我记得2023年行业里有个流行的论调：通用AI在垂直领域迟早会被专业方案收编，因为"专业的活交给专业的人"。现在看来，这个判断可能过于线性了。通用模型的快速迭代能力和成本优势，正在蚕食专用工具的市场空间——至少在中游的信息处理环节。

对于医疗AI的从业者来说，这可能是个甜蜜的烦恼：机会更大了，因为应用场景在扩展；竞争也更激烈了，因为门口的野蛮人比你预想的更能打。

对于我们这些科技观察者而言，这项研究的启示或许更朴素：别轻易给某个技术路线判死刑。AI能力的演化，从来不按我们画好的剧本走。

# 软件科技 # AI医疗 # ChatGPT # Claude # Gemini # Nature Medicine # OpenEvidence # UpToDate # 临床决策支持 # 临床评估 # 人工智能医学 # 医学AI # 医学信息评估 # 医疗AI # 大语言模型 # 通用AI

本站专栏文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

当通用AI开始"跨界"：医学评估赛道的意外颠覆

当通用AI开始"跨界"：医学评估赛道的意外颠覆

专门做的不如通用学得好

那12位医生的评分标准是什么

这背后的逻辑比结果更有意思

下一步会怎么走

当AI Agent拿起命令行：一段关于隔离与风险的实验之旅

ChatGPT不再是AI代名词：市场份额从76%跌至54%，问题不在质量

相关文章

暂无评论

最新文章

站点公告

网址设置

网址样式切换

网址卡片按钮

布局设置

左侧边栏菜单

页面最大宽度

搜索框设置

搜索框背景上下位置

自定义搜索框背景

自定义搜索框高度

当通用AI开始"跨界"：医学评估赛道的意外颠覆

当通用AI开始"跨界"：医学评估赛道的意外颠覆

专门做的不如通用学得好

那12位医生的评分标准是什么

这背后的逻辑比结果更有意思

下一步会怎么走

当AI Agent拿起命令行：一段关于隔离与风险的实验之旅

ChatGPT不再是AI代名词：市场份额从76%跌至54%，问题不在质量

相关文章

暂无评论

最新文章

站点公告

🇦🇩

网址设置

网址样式切换

网址卡片按钮

布局设置

左侧边栏菜单

页面最大宽度

搜索框设置

搜索框背景上下位置

自定义搜索框背景

自定义搜索框高度