
2026年6月9日,Anthropic发布Claude Fable 5,一个被定义为"Mythos级"的模型。它能做到此前任何公开发布的模型都做不到的事:连续工作数天而不出系统性错误,自主规划、执行、验证,在5000万行代码的Ruby代码库迁移任务中,用一天时间完成了原先需要两个月的人力工作。
同一天,地球另一端,DeepSeek V4 Pro已经服役了六周。1.6万亿参数,49B激活,百万上下文,API价格只有GPT-5.5的七十分之一。在代码核心任务上,它是开源权重模型的第一名。
两个模型站在各自的逻辑上都没有问题。但把它们放在一起看,问题出来了。某些能力维度上,一边有的东西另一边压根不存在。差距不是"差了一点",是根本不在同一个能力集合里。
这差距的根源是什么?最近几个月的研究给出的回答,不太让人舒服。
一、一场关于"抢课桌"的实验
2026年6月,斯坦福大学Christopher Potts团队在arXiv上发表了一篇论文,标题直白:"Why Larger Models Learn More"。这篇论文试图回答一个看似简单的问题:大模型能学会的东西,小模型为什么学不会?
答案用一个比喻讲很直观。想象一个班级有10节自习课,需要练30道题,其中20道是高频基础题,10道是低频难题。学生只有10节课,他会怎么分配?几乎所有人都会把10节课全压在20道基础题上。因为高频、因为容易出成绩。那10道低频难题,永远排不上号。
神经网络的训练过程面临一模一样的困境。不同任务在训练中争夺有限的神经元资源和梯度更新预算。数据分布里高频简单任务和低频复杂任务并存时,小模型会优先把神经元分配给前者。低频复杂任务能分到的"预算"太少,积累的特征要么不稳定,要么被后续训练直接覆盖。
Potts团队把这个机制叫做"data-induced competition over resources"——数据诱导的资源竞争。小模型的神经元不够分,低频任务的特征刚积累一点就被擦除重写。
关键发现来了:大模型能学会低频任务,不完全是因为"容量更大"。参数充裕时,高频任务被充分学习后产生的梯度信号减弱了,模型对它们足够熟悉,不需要大量调整。低频任务终于得到了"不被前辈踩踏"的学习窗口。
论文用1个神经元和2个神经元的对比实验做了极端验证。1个神经元时,高频和低频任务的梯度在同一块参数空间打架,低频任务永远学不会。2个神经元时,高频任务占据一个后很快学完,第二个被释放给低频任务专用。
这不是渐变过程。跨不过某个门槛就永远没有,跨过了就有。没有中间态。
二、Fable 5展示的那种能力,是什么能力
Fable 5不是在传统benchmark上碾压对手的模型。它在SWE-Bench Pro编程评测上得分80.3%,确实领先,但真正让行业震动的是另一件事,多日自主运行。
一个模型能连续工作三天,规划、执行、检查、修正、再执行,中间不靠人类介入就能维持上下文一致性——这和"回答问题更准确"不是同一个能力维度。它需要的是对长程状态的持续记忆,对多步决策之间因果关系的保持,对自身错误模式的识别和纠偏。这些能力,benchmark测不出来。
Potts团队的论文提供了一个理解框架:这些能力很可能就属于"低频复杂任务"的范畴。在训练数据中,"维持三天一致的推理链"这种样本远比"回答一道选择题"稀少。小模型在"回答选择题"上可以和大模型打得有来有回,但在"维持三天一致性"上,它可能压根没有为这类模式留出过神经元位子。
回到那个判断:某些能力维度上,一边有的东西另一边不存在。Potts的论文给出了机制层面的解释。
三、DeepSeek V4的清醒与两难
DeepSeek自己的官方技术报告里写了一句很清醒的话:"V4的能力水平仍落后GPT-5.4和Gemini 3.1 Pro约3至6个月。"
这不是示弱。V4的真正贡献在基础设施层面——它重构了长上下文推理的成本结构。在1M上下文设置下,V4-Pro的单token推理FLOPs降至V3.2的27%,KV Cache降至10%。V4-Flash更激进,分别压至10%和7%。
但这些是效率成绩,和能力成绩是两码事。效率优化解决的是"做同样的事花更少的钱"。做不了的事怎么才能做得了,它不回答。
根据DeepSeek技术社区披露的路线图,从V4到V5之间规划了三到四个中间迭代:V4.1、V4-Turbo、V4-MultiModal。如果每一个版本都是在现有MoE框架上的效率优化,而没有在总参数规模上向上跃迁,那一个现实的风险是:这些迭代都在"优化脚下的经验平原",而不是"跳到对面的参数高原"。
Potts团队论文的结论在这里变成了一个具体的判断工具:低频复杂能力的获取不是连续的,是跳跃的。跨不过参数量门槛就没有,优化效率不能替代跨越门槛。
四、"效率红利"的舒适与危险
过去一年,中国大模型行业形成了一套很有说服力的叙事:因为算力受限,所以必须更聪明——用更少的参数、更低的成本、更巧妙的架构,达到接近的效果。
这套叙事有事实支撑。2025年11月发表于Nature Machine Intelligence的《Densing Law of LLMs》论文发现,开源大模型的能力密度大约每3.5个月翻一倍。也就是说,达到同等性能所需的参数量在持续减少。DeepSeek V4的极致压缩比正是这种趋势的体现。
但叙事和战略是两回事。当一套叙事足够舒适,它会慢慢变成战略惰性的合法性来源。
一些硬数据。腾讯新闻2026年5月的测算显示,Meta一家公司2026年的AI资本支出已接近中国所有头部AI企业的总和。东方证券同期研报指出,中国模型的差距主要体现在"上下文管理、记忆压缩、工具循环和agent harness层面"。虎嗅的分析将核心差异归结为"场景分裂":中国在开源模型、中文语境、成本效率上形成了优势,但在高稳定性长程agent任务、企业级低故障率上仍有明显实用差距。
差距的根源,至少在某些能力维度上,是"不够大"。Potts团队的论文说得很清楚:这些能力的获取,不是一个"多用点算力就学到了"的连续梯度问题。它是一个开关。跨不过参数量门槛就永远没有。
五、国产算力的真实进度
2026年春天,两条消息几乎同时到来。
4月24日,美团LongCat-2.0-Preview在5至6万张国产加速卡上完成1.6万亿参数全流程训练,英伟达算力占比为零。
6月初,深圳河套团队在约1000颗昇腾910C上完成DeepSeek V4 Pro的全参数后训练。
这些都是真实的工程成就。但两个细节值得注意。第一,昇腾910C的单卡HBM容量约60GB,英伟达H800/H100为80GB,带宽差距更大。美团团队能跑通万亿模型,靠的是从架构层面做了大量工程创新来适配硬件缺陷——这是能力的体现,也是约束的证明。第二,深圳方面的披露中没有公开基准测试和与英伟达硬件的对比数据,DeepSeek公司本身也未就此事发表声明。
华为副总裁陈林在2026年6月的华为云INSPIRE大会上确认,昇腾950DT芯片将提前至8月上线华为云,性能较前代翻倍。自研HBM芯片容量从128GB提到144GB,带宽从1.6TB/s翻到4TB/s。这条进度线是真实的。
但"从零到能跑"和"从能跑到能赢"之间的距离,目前还没有被证明已经走完。
六、V5面前的那条线
对DeepSeek来说,V5面前的问题不是"要不要做",而是"做什么"。
一条路是继续在1T-2T参数区间内优化效率。这条路安全、可控,和现有硬件匹配度最高。但它的天花板是明确的:GPT-5.5和Fable 5已经展示的低频复杂能力集合,在这个参数区间里不会出现。原因很简单:那些能力需要更多的神经元来存放,优化得再好也变不出不存在的位子。
另一条路是一次实质性的参数跃迁,3T起步,在MoE框架下用极低激活比控制成本,借助昇腾950DT提升的算力完成代际跳跃。这条路风险大——成本、工程复杂度、价格竞争力都可能出问题。但它是唯一可能让中国开源模型站到和美国闭源前沿同一参数高原上的路。
还有第三条:参数扩张加架构创新的并行路线。DeepSeek社区已经在讨论Engram条件记忆架构——将MoE的条件计算和O(1)静态知识查找结合,用新的稀疏轴在扩张参数的同时进一步压低激活比。如果V5能同时走通规模和结构两条线,那就是最优解。但执行难度也最高。
七、一个更深的结构性问题
把讨论范围再拉大一点。
2026年的AI行业正在经历一个有意思的分化:一端是Fable 5展示的"时间持续性智能",模型能在多大时间跨度内维持一致的高质量推理。另一端是Densing Law展示的"能力密度",同样的智能需要多少参数来承载。
这两条线不是矛盾的,但它们指向不同的战略选择。Densing Law说小模型会越来越强。Potts的论文说有些能力小模型就是学不会。两个结论都是对的,因为它们讨论的是不同的能力集合。
真正的问题是:那批"小模型学不会的能力",对产业来说有多重要?
目前看,越来越重要。Agent任务、长程编码、多工具循环、企业级自动化——这些恰好是2026年产业最愿意付费的场景。基准测试上的差距在缩小,但真实任务上的差距在拉大。这不是偶然。Potts论文揭示的机制在产业层面正在发生:高频简单能力可以被优化补齐,低频复杂能力只能靠规模获取。
收束
回到标题那个问题:大模型不可替代的东西到底是什么?
不是"更聪明"。8B参数的模型在很多常见任务上已经接近甚至超过两年前的万亿级模型。
是不可替代的,是那些在训练数据中出现频率足够低、复杂度足够高、需要持续积累而不被覆盖的模式。这些模式的存在不是连续的,是离散的。参数量跨过某个门槛,它们出现;没跨过,就不存在。
这不是Scaling Law的信仰问题。它是一个已经被实验验证的机制。
对DeepSeek V5来说,真正要回答的不是"能不能做得更便宜",而是"能不能做到那些只有足够大的模型才能做到的事"。在中国大模型行业的语境下,这个问题还有一个附加层:能不能在算力受限的现实中,找到一条跨过参数门槛的路径。
昇腾950DT在8月上线,自研HBM带宽翻倍。这是硬件侧的进展。软件侧,DeepSeek社区的Engram架构讨论还在早期。两条线能否在V5的时间窗口内汇合,将决定中国开源模型是在自己的参数高原上和美国闭源前沿正面竞争,还是继续在效率叙事中安全地待在经验平原上。
没有人知道答案。但问题已经被问出来了。
参考来源
Jing Huang et al., "Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention," arXiv, 2026年6月
Nature Machine Intelligence, "Densing Law of LLMs," 2025年11月6日
DeepSeek官方技术报告,V4系列规格与定位说明,2026年4月24日
Anthropic官方文档,Claude Fable 5发布信息,2026年6月9日
AWS Bedrock,Claude Fable 5 Model Card,2026年6月
科创板日报,OpenAI发布GPT-5.5,定价$5/$30 per MTok,2026年4月24日
美团LongCat-2.0-Preview开放测试报道,新浪科技/中国经营报,2026年4月24日
华为云INSPIRE大会,陈林确认昇腾950DT提前至8月上线,2026年6月11日
东方证券研报,国产模型代际跃迁评估,2026年5月
