当“更多计算”不再是答案：LoopCoder-v2重新定义测试时计算

在AI领域，有一个近乎被奉为圭臬的信念：模型的输出质量与它投入的推理成本成正比。无论是OpenAI的o系列、Anthropic的Claude，还是国内各大厂的旗舰模型，都在强调“深度思考”“多次推理”“测试时计算”等概念。这些技术本质上都是让模型在生成答案前多做几轮“反思”，仿佛思考得越久，答案就越可靠。

但斯坦福大学和DeepMind的研究者们在最新论文《LoopCoder-v2》中给出了一个相当反直觉的结论：事情没那么简单。他们发现，在代码生成任务上，循环推理的次数并非越多越好——恰恰相反，超过某个临界点后，继续增加循环反而会让模型性能下降。这个发现不仅挑战了当前的行业共识，也为“测试时计算”这条技术路线指出了一个更精细的优化方向。

从“暴力堆算力”到“精准循环”：一次范式转变

要理解LoopCoder-v2的意义，我们需要先回顾一下“测试时计算”（Test-Time Compute）这个概念的演进。

传统的语言模型推理是“单次通过”的——输入 Prompt，模型一次性输出结果。但从2023年开始，随着o1-preview和o3的发布，行业逐渐认识到：让模型在生成最终答案前进行多轮自检、自修正，可以显著提升复杂任务的准确率。这种做法后来被叫做“测试时扩展”（Test-Time Scaling），其核心思路是“用更多的推理步骤换取更好的输出质量”。

然而，这种范式存在一个明显的问题：它太“贵”了。每次循环都需要重新运行模型的全部层，在实际部署中，这意味着数倍的延迟和算力成本。更要命的是，随着循环次数增加，边际收益递减，最终甚至可能为负——这正是LoopCoder-v2要揭示的核心问题。

研究团队提出了Parallel Loop Transformer架构。不同于传统循环模型（Recursive Transformer）的串行执行，他们的方案允许所有循环步骤并行运行，同时通过共享内存机制实现信息传递。这就好比把原来的“接力赛”变成了“并肩跑”——既保留了循环推理的优势，又大幅降低了延迟开销。

数据说话：7B模型如何击败“越多越好”神话

LoopCoder-v2团队训练了一个7B参数的代码模型，在总计18T tokens的大规模语料上完成了预训练和微调。他们设置了1次、2次、3次、4次循环四个版本，在代码编写、推理、软件工程和工具使用等多个维度进行了系统性评测。

结果非常有戏剧性：

- 1次循环（baseline）：SWE-bench Verified得分 43.0
- 2次循环：SWE-bench Verified得分 64.4（提升49.8%）
- 3次循环：性能开始回落
- 4次循环：性能进一步下降

这个数据告诉我们：最佳答案不是“想多久”出来的，而是“在某个节点刚好想对”出来的。2次循环相比基线提升了整整21.4个百分点，这个幅度在软件工程基准测试中是相当可观的进步。

深入“黑箱”：为什么第二次循环才是关键

团队还进行了大量内部分析，试图回答一个更本质的问题：每次循环到底在做什么？

他们发现，第一次循环生成的内容存在明显的改进空间——隐藏状态分布较为发散，注意力模式相对杂乱，预测结果也不够稳定。而第二次循环表现出显著的“精炼”特征：隐藏状态更加凝聚，注意力模式趋于一致，预测置信度明显提升。这意味着第一次循环是“试错”和“探索”，第二次循环则是“收敛”和“确认”。

但从第三次开始，情况发生了质变。模型不再进行有意义的精炼，而是开始添加重复内容和噪声——输出文本变得更长，但有效信息密度反而下降。这解释了为什么继续增加循环次数会导致性能衰退：模型陷入了自我强化的循环泥潭，反而丢失了第二次循环建立起来的正确方向。

说实话，这个发现让我重新思考了“推理时间越长越好”的假设。过去我们倾向于认为，只要给模型足够的“思考时间”，它就能逐步逼近正确答案。但LoopCoder-v2表明，模型的推理过程更像是登山而不是散步——登顶的路只有一条，走到半山腰之后继续往上爬是对的，但如果在峰顶附近反复横跳，只会消耗体力甚至滑落谷底。

启示与展望：测试时计算的下一个十年

LoopCoder-v2的研究价值不仅在于它提出了一个更高效的架构，更在于它提供了一套理解和优化循环推理的方法论。我认为，以下几点值得行业重点关注：

第一，“测试时计算”需要从粗放走向精细。 不是所有的循环都等价，第一次、第二次、第三次循环承担着完全不同的认知功能。未来的优化方向应该是识别这些阶段特征，并针对性地设计干预策略，而不是简单地“堆循环次数”。

第二，并行循环架构为实际部署打开了新窗口。 Parallel Loop Transformer通过共享内存和并行执行，在保持循环优势的同时大幅降低了延迟。这意味着测试时计算不再只是“财大气粗”的大厂游戏，中小团队也可以探索这一技术路线。

第三，模型需要学会“适时停止”。 当前的大多数循环模型默认执行固定次数的推理，但LoopCoder-v2的发现暗示，模型应该具备判断“何时该停下”的能力。动态循环次数可能比固定循环次数更接近最优解。

当然，这项研究也有局限性。它主要在代码生成任务上验证，而代码任务有其特殊性——有明确的对错标准，容易验证。这是否意味着在其他任务（如创意写作、开放域问答）上，循环推理的表现会有不同的规律？这一点还需要后续工作进一步探索。

但无论如何，LoopCoder-v2给行业提了一个醒：在AI的发展路上，“更多”并不总是“更好”。有时候，克制地只做一次正确的事情，远比反复试错更有价值。

# 软件科技 # 7B参数模型 # AI推理优化 # LoopCoder-v2 # Parallel Loop Transformer # SWE-bench # 代码生成 # 大语言模型 # 循环推理 # 性能下降 # 推理成本 # 斯坦福DeepMind # 测试时扩展 # 测试时计算 # 深度思考 # 边际收益递减

本站专栏文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

当“更多计算”不再是答案：LoopCoder-v2重新定义测试时计算

当“更多计算”不再是答案：LoopCoder-v2重新定义测试时计算

从“暴力堆算力”到“精准循环”：一次范式转变

数据说话：7B模型如何击败“越多越好”神话

深入“黑箱”：为什么第二次循环才是关键

启示与展望：测试时计算的下一个十年

Meta的至暗时刻：CTO亲口承认士气跌入谷底，AI转型能救场吗？

Agent即目录：Vercel开源Eve框架重新定义AI Agent开发

相关文章

暂无评论

最新文章

站点公告

网址设置

网址样式切换

网址卡片按钮

布局设置

左侧边栏菜单

页面最大宽度

搜索框设置

搜索框背景上下位置

自定义搜索框背景

自定义搜索框高度

当“更多计算”不再是答案：LoopCoder-v2重新定义测试时计算

当“更多计算”不再是答案：LoopCoder-v2重新定义测试时计算

从“暴力堆算力”到“精准循环”：一次范式转变

数据说话：7B模型如何击败“越多越好”神话

深入“黑箱”：为什么第二次循环才是关键

启示与展望：测试时计算的下一个十年

Meta的至暗时刻：CTO亲口承认士气跌入谷底，AI转型能救场吗？

Agent即目录：Vercel开源Eve框架重新定义AI Agent开发

相关文章

暂无评论

最新文章

站点公告

🇦🇩

网址设置

网址样式切换

网址卡片按钮

布局设置

左侧边栏菜单

页面最大宽度

搜索框设置

搜索框背景上下位置

自定义搜索框背景

自定义搜索框高度