为什么"聪明"AI反而会输?AutoLab基准揭示了一个反直觉的真相

软件科技2小时前发布 botnews
36 0 0
为什么

为什么"聪明"AI反而会输?AutoLab基准揭示了一个反直觉的真相

你有没有遇到过这种情况:一个看似简单的编程任务,AI却反复卡在同一个地方,怎么也过不去?

我最近看到了一个挺有意思的研究,心里琢磨了很久。斯坦福、MIT、英伟达、谷歌这些顶级机构的联合团队,搞出了一个叫AutoLab的新基准。他们测试了17个前沿大模型,结果发现了一件特别反直觉的事:模型最初有多"聪明",跟最终能不能完成任务,几乎没什么关系。

真正决定胜负的,是一个我们平时不太重视的能力——持续测试、频繁实验、靠反馈迭代

这个结论让我重新思考了很多东西。

AutoLab到底测什么

先说说这个基准是怎么设计的。AutoLab包含了36个任务,听起来不多,但每个任务都挺有挑战性。这些任务被分成了几类:

系统加速类,比如给代码找出性能瓶颈并优化;谜题类,需要逻辑推理和步骤规划;模型开发类,让AI自己设计和训练一个小型模型;CUDA内核优化类,这个比较硬核,涉及到GPU并行计算的底层优化。

关键在于测试方式。每个任务开始时,模型拿到的不是空白的开始界面,而是一段已经能跑起来的弱代码。模型需要在固定时间内不断迭代优化这段代码,最终看谁的效果最好。

这个设计很有意思。我记得以前很多AI基准测试,都是看模型"第一次回答"有多好。但AutoLab完全不一样——它模拟的是真实世界的开发场景。你拿到一份能跑但很烂的代码,能不能让它变快、变好、变得能用?

结果一出来,行业内不少人应该挺意外的。

持续迭代才是真正的分水岭

17个模型参与测试,覆盖了目前几乎所有主流的前沿模型。最后的数据很有意思:模型初始方案的优劣,和最终得分之间的相关性很低

说白了,你一开始想得多巧妙、代码写得多漂亮,都不能保证你笑到最后。

真正拉开差距的,是三个行为模式:

第一,能不能坚持迭代。 有些模型试了一两次发现效果不理想,就直接放弃了。但成功者会一直测下去,哪怕当前方案已经很接近目标了,还是会继续尝试有没有更好的实现。

第二,实验的频率。 这里有个细节我比较关注——AutoLab里那些表现好的模型,并不是思考时间长的模型。相反,它们是频繁提交、频繁测试的模型。换句话说,多想少做反而不如边做边想。

第三,能不能利用反馈。 每次测试结果出来,模型需要从错误信息、运行时间、输出结果里提取有用的线索,然后调整下一步的方向。这听起来简单,但很多模型其实做不到——它们要么忽视反馈,要么被反馈淹没,不知道该信哪个。

我个人的判断是,AutoLab揭示的不只是一个测试结果,而是当前AI Agent设计思路上的一个盲区。我们太关注"模型有多聪明",但真实场景里更需要的是"模型有多皮实"——能不能扛住反复失败,能不能在挫折中继续尝试。

Claude Opus 4.6凭什么领跑

具体说说表现最好的Claude Opus 4.6。OpanAI和Anthropic的模型我都长期用过,Claude给我的感觉一直是它的推理过程比较稳健。但AutoLab的结果告诉我,它真正强的地方可能不是推理本身,而是持续优化的韧性

据我了解,Claude Opus 4.6在AutoLab上的策略是:保持一个相对保守的初始方案,但绝不停止迭代。它不是那种"一击必中"的选手,而是"多轮打击"的选手。哪怕某一次尝试只提升了一点点,它也会继续测下去。

相比之下,其他一些模型的问题很有意思:

有的模型提前放弃。可能因为早期尝试效果不好,模型就判定这条路走不通,直接输出当前最佳结果然后收工。这类模型在简单任务上表现不错,但一旦遇到需要多轮优化的任务,短板就暴露了。

有的模型则思考过久。它们倾向于在提交之前花大量时间"想清楚",试图一步到位。结果要么是超时,要么是错过了一些通过快速试错才能发现的有效路径。

这个对比让我想到软件工程里的一句话:过早优化是万恶之源。其实AI Agent也是一样,花太多时间在初始方案上打磨,不如先把东西跑起来,再用真实反馈指导下一步。

这对AI Agent生态意味着什么

AutoLab的结论如果成立,对整个AI Agent领域的开发思路会有不小的影响。

以前我们评价一个Agent好不好用,经常看它的规划能力、工具调用能力、上下文理解能力。但AutoLab提醒我们,可能还需要加一个维度:迭代优化能力

这个能力怎么培养?我能想到几个方向。一是训练数据里要包含更多"从失败走向成功"的案例,让模型学会在逆境中调整策略。二是推理框架上可能需要重新设计,不能让模型"一条道走到黑",要有机制让它定期检视当前方案的有效性。三是在产品层面,给Agent足够多的测试机会和试错空间,不要因为一两次失败就终止整个流程。

说实话,我觉得AutoLab的价值不止于提供一个新基准。它让行业重新审视了一个基本假设:我们到底需要什么样的AI Agent?是那种回答一次就准确的,还是那种能持续跟进、不断改进的?

从实际应用场景来看,后者显然更有价值。软件开发、数据分析、科学研究——这些领域没有多少问题是能一步到位的,都需要反复测试和迭代。如果AI Agent不具备这种能力,它的实用性就要大打折扣。

AutoLab给出了36个任务、17个模型的详细数据,后续肯定会有更多研究跟进。我比较期待看到的是,不同类型的Agent在迭代行为上有什么差异,以及这种差异背后反映了什么样的训练和架构问题。

这个方向如果被重视起来,我觉得会对AI Agent的下一阶段发展产生比较深远的影响。毕竟,能坚持试错的AI,才是真正能在真实世界里帮上忙的AI。

© 版权声明

相关文章

暂无评论

暂无评论...

网址设置

网址样式切换

详细

网址卡片按钮

显示

布局设置

左侧边栏菜单

展开

页面最大宽度

1700px

搜索框设置

搜索框背景上下位置

仅对图片背景生效

50%

自定义搜索框背景

  • 静图

    随机壁纸

  • 静图

    随机4K

自定义搜索框高度

  • 聚焦
  • 信息
  • 默认
设置