
AI Agent的“期末考试”来了,这次谁才是真学霸?
说实话,每次看到AI基准测试发布,我都有种看学霸们同台竞技的既视感。但今天这个AA-Briefcase,确实让我眼前一亮——它测的不是模型会不会做题,而是能不能像真正的知识工作者一样,在海量碎片信息里找到关键、完成项目。
这听起来很朴实,但细想一下,这才是AI从“能说会道”走向“能干活”的关键一步。
Artificial Analysis刚刚发布的这个基准,模拟的是真实办公室里那些让人头疼的场景:一个人要同时处理几千条Slack消息、几百封邮件、各种文档碎片,还得把这些零散信息整合起来完成具体任务。这不是开卷考试,这是把AI扔进真实工作的“试炼场”。
---
一、为什么这个基准不一样?
过去几年,我们见过太多AI基准测试了。问答、推理、代码生成……这些benchmark各有价值,但说实话,它们更像是“单元测验”——测的是模型在特定类型问题上的表现,而不是在实际工作中的综合能力。
AA-Briefcase的设计思路完全不同。它包含4个私有场景,每个场景都需要模型处理:
- 25000+条Slack消息
- 3500+封邮件
- 大量的文档、表格、聊天记录等碎片化上下文
然后完成具体的知识工作任务,比如整合信息做决策、写报告、回答复杂问题等。这个数据量意味着什么?意味着模型必须在真正的“信息海洋”里游泳,而不是在精心准备的“游泳池”里测试。
我还注意到,他们还有一个公开演示场景,这降低了研究的门槛,让更多人能复现和验证结果。我觉得这是个好信号——一个基准的价值,不仅在于它测了什么,更在于它能不能被独立验证。
---
二、性能榜单出炉:Claude一马当先,但差距耐人寻味
评测结果很有意思。Claude Fable 5以Elo 1587分遥遥领先,这是什么概念呢?Elo评分体系里,分差100分大约意味着胜率64%左右。换句话说,Fable 5对第二名的领先幅度是相当显著的。
让我把主要玩家的数据整理一下:
| 模型 | Elo分数 | 单任务成本 |
|---|---|---|
| Claude Fable 5 | 1587 | $31.00 |
| Claude Opus 4.8 | 1356 | $10.40 |
| 智谱 GLM 5.2 (max) | 1266 | $2.40 |
| GPT-5.5 (xhigh) | 未公布 | $3.68 |
| DeepSeek V4 Flash (max) | 未公布 | ~$0.04 |
几个观察:
第一,Claude系列的优势是全方位的。 Fable 5和Opus 4.8占据了前两位,而且领先幅度不小。Anthropic在复杂上下文处理上的积累,看来确实转化为了实际能力。
第二,开源模型已经进入主战场。 智谱的GLM 5.2和DeepSeek系列都出现在了榜单上,而且Elo分数并不难看。这意味着“能用”和“用得起”的门槛正在降低。
第三,GPT-5.5的数据很有意思。 他们没有公布Elo分数,只给了成本数据。这种“选择性披露”往往暗示着排名可能不太理想——当然,这只是我的推测。
但真正让我震惊的是另一个数据:所有模型中,只有3%的任务满足全部标准。 31个任务(占91个任务的34%)没有模型得分超过50%。
这组数字说明什么?说明当前最强的大语言模型,在真实复杂工作场景中,依然有很长的路要走。 三分之二的“考试不及格”任务,意味着真实世界的复杂性远超我们想象。AI能通过律师考试、医师考试,但要在真实的办公室里像个资深员工一样工作,目前还有相当大的差距。
---
三、成本与效能的博弈:贵的真的更好吗?
现在让我们聊聊钱的事。
如果单看成本效率,情况就完全不一样了:
- DeepSeek V4 Flash (max):约$0.04/任务
- GLM 5.2 (max):$2.40/任务
- GPT-5.5 (xhigh):$3.68/任务
- Opus 4.8:$10.40/任务
- Claude Fable 5:$31.00/任务
Claude Fable 5的成本是DeepSeek V4 Flash的775倍。 性能确实更强,但这个差距值不值?
从基准测试来看,Fable 5的Elo是1587,DeepSeek V4 Flash没有公布分数(从成本和定位推断应该差距不小)。但如果你只是需要完成一些中等复杂度的知识工作,开源模型的性价比可能更实际。
这也是为什么Artificial Analysis特别指出:最佳性价比为开源权重模型GLM-5.2 (max)和DeepSeek V4 Pro (max)。
我觉得这个结论很有意义。它不是在说“贵的没用”,而是在说:对于不同层次的需求,有不同的最优解。 如果你是大型企业,需要处理最复杂的长期项目,愿意为最高性能付费,Fable 5可能是选择。但如果你是中小企业或者个人用户,在性能和成本之间找平衡,开源模型正在变得非常有竞争力。
---
四、开源模型的逆袭时刻
说到这里,我忍不住想感慨一下开源模型这两年的进步。
还记得2023年吗?当时主流观点是:开源模型和闭源模型的差距至少有两三年。但看看今天的AA-Briefcase,GLM 5.2和DeepSeek系列已经能和GPT-4系列、Claude系列同台竞技了。不是“能用”的勉强竞争,而是有真实评测数据支撑的正面较量。
这背后的原因,我认为有几个:
第一,开源社区的迭代速度远超预期。 每次开源模型发布新版本,性能提升的幅度都让人惊讶。这种快速迭代的能力,是闭源公司很难复制的。
第二,推理成本在持续下降。 DeepSeek V4 Flash能做到$0.04/任务,这在前两年是不可想象的。成本的下降让更多人能用上高性能模型,反过来也推动了更多应用场景的探索。
第三,中文模型的崛起值得关注。 智谱GLM 5.2作为中国团队的产品,能在这个以英文为主的基准测试中拿到1266的Elo分数,本身就说明了问题。全球AI竞争正在从“中美两条线”走向更复杂的竞合关系。
---
五、写在最后:AI Agent时代的序章
AA-Briefcase这个基准测试,给我们展示了一个重要的趋势:AI正在从“对话工具”进化为“工作伙伴”。
单次对话、即时问答当然有价值,但真实的工作场景往往是持续的、多步骤的、需要整合大量信息的。这才是AI Agent真正的用武之地。
从这个角度看,AA-Briefcase的发布不仅仅是一个新基准,更是对整个行业的一次提醒:光会聊天不够用了,得能干活。
从测试结果来看,行业格局正在微妙变化。Claude系列依然领先,但领先幅度在缩小;开源模型快速追赶,在特定场景下已经是“够用且实惠”的选择;而那些超过三分之一“无人及格”的复杂任务,则提醒我们:AI Agent时代的真正挑战,可能才刚刚开始。
我个人判断,未来的AI竞争,不会是单一指标的零和游戏。性能、成本、稳定性、安全性、隐私保护……每一个维度都可能成为决定胜负的关键。 AA-Briefcase只是提供了一个观察窗口,但透过这个窗口,我们已经能隐约看到未来工作的模样。
那会是什么样的工作方式呢?我很期待。
