Claude Opus 正在学会"自己干活":五条实战经验让 AI 真正实现长时自主

软件科技3小时前发布 botnews
49 0 0
Claude Opus 正在学会

Claude Opus 正在学会"自己干活":五条实战经验让 AI 真正实现长时自主

你有没有过这种体验——早上给 AI 下了一个任务,出门办事,晚上回来发现它早就跑偏了,甚至中途卡死报错?说实话,这种"AI 帮你干活"的故事听起来美好,但在实际场景里,能让一个大模型连续稳定运行几个小时甚至一整天,中间不翻车、不需要你反复干预——这件事的难度,远超大多数人的想象。

最近,Anthropic 前安全工程师 Boris Cherny 在社交平台上分享了一套实战方法,核心命题只有一个:如何让 Claude Opus 真正实现长时自主运行。这五条建议不是纸上谈兵,而是来自一线开发者的真实经验。这套方法的完整程度,让它迅速登上了 AI 资讯平台的热榜第一。

我仔细研究了这套方案,又结合了国内 AI 实践者邵猛的补充评论,发现里面有几个关键点非常值得展开聊聊。

为什么你的 Claude Opus 总是在"掉线"

先说一个很多人踩过的坑:本地运行 Claude Code

Boris Cherny 在第一条建议里就明确提到,优先使用云端 Claude Code,而不是本地部署版本。原因很直接——本地机器会休眠、会断网、会内存爆掉。一旦你的笔记本进入睡眠模式,整个任务链就断了,前面积累的所有中间状态和上下文全部归零。这意味着什么?假设你让 Claude Opus 帮你跑一个需要两小时的数据分析任务,如果本地环境中途休眠了,你回来面对的可能不是一份完整报告,而是一个卡在某个中间步骤的错误状态。更要命的是,你还得重新花 token 重新跑,白白浪费资源。

云端 Claude Code 的核心优势在这里体现得淋漓尽致:只要保持网络连接,任务可以在服务器端持续运行,你甚至可以关闭本地设备。邵猛在评论中特别强调了一个前提——自动权限(Auto Permissions)是实现这一切的前提条件。没有自动权限,Claude 在每一步关键操作上都会停下来等你确认,时间长了根本谈不上"自主运行"。

从单 Agent 到 Agent 编排:跨越质变的关键一步

接下来是 Boris 方案中最具技术深度的一条:Dynamic Workflows

这才是让 Claude Opus 从"帮我做事"进化到"帮我开公司"的核心能力。Dynamic Workflows 本质上是一套任务编排框架,允许你把一个复杂目标拆解成数百甚至数千个子 Agent 任务,然后让它们按逻辑顺序或并行方式协同执行。打个比方,传统的单 Agent 模式就像你雇了一个能力很强的员工,但它只能一件一件做事;Dynamic Workflows 则相当于你建了一整套流水线,每个环节有专门的 Agent 负责,最终产出的是完整的产品。

这听起来很美,但邵猛给出了一个很实际的提醒——/goal 和 /loop 这类指令非常适合高难度、多步骤的复杂任务,但 token 消耗相当高。在商业化场景中,这意味着成本控制是一个必须认真对待的问题。一个持续运行数天的任务,如果用了大量的 /goal 嵌套和循环调用,最终的 token 账单可能会让中小型项目望而却步。所以在他看来,这套方法更适合"大活"——比如完整的系统架构设计、跨模块代码重构、大规模文档整理——而不太适合那些本可以几秒完成的简单任务。

自验证:最容易被忽视、却最关键的环节

整篇文章我认为最值得单独拿出来说的,是 Boris 提到的端到端自验证能力,以及邵猛对此的强调——"端到端验证最重要,否则 token 可能白费。"

这句话背后是一个很多人在实践中才真正理解的痛点:AI 跑了一个小时,生成了大量输出,结果最后发现中间某个环节出了问题,导致后续所有结果都建立在错误前提之上。如果这个错误没有被发现,你可能还要花更多 token 去修复。更极端的情况是——你甚至不知道结果已经错了,直到有人告诉你。

端到端自验证的核心思路是:让 Claude Opus 在任务执行过程中,不仅产出结果,还要持续验证这些结果是否符合预期。这包括中间步骤的逻辑一致性、输出格式的合规性,以及与最初目标的偏离程度。一个具备良好自验证能力的 Agent 链路,才能真正做到"放出去就跑,跑完就可用"。

坦率地讲,目前这套自验证方案在工程实现上还有不少挑战。不是所有的验证都能自动化,有些验证本身也需要消耗大量 token。邵猛把它放在最重要的位置,恰恰说明在实际落地中,这个环节的缺失是导致很多"看起来运行成功、实际上结果不可用"的根本原因。

让 AI 真正"打工",还有多远

回顾 Boris Cherny 的五条建议和邵猛的补充,一条清晰的逻辑链浮现出来:云端部署解决稳定性问题,Auto Mode 解决审批效率问题,Dynamic Workflows 解决规模化问题,/goal 和 /loop 解决持续推进问题,自验证解决质量问题。 这五块拼图合在一起,才构成一个真正意义上的"AI 长时自主运行"方案。

我个人的判断是,这套方法代表了当前 AI Agent 发展的一个重要方向——从"我告诉你怎么做"的指令驱动,走向"你自己规划、你自己执行、你自己检查"的自主驱动。当然,挑战也真实存在:token 成本、任务规划的正确性、异常情况的处理——这些问题目前还没有被完全解决。但 Boris 和邵猛给出的这套实战框架,至少让"让 AI 真正替你打工"这件事,从科幻叙事变成了可以触及的工程实践。

对于正在考虑将 Claude Opus 引入工作流的团队,我的建议是先从一个小而完整的任务开始,完整地走一遍这五个环节,感受每个节点的真实挑战在哪里,而不是一上来就尝试用 Dynamic Workflows 构建庞大的 Agent 网络。有些弯路,只有自己走过了,才知道那些"听起来简单"的建议背后藏了多少细节。

AI 自主运行的时代可能比我们想象的来得更快,而决定谁能率先抵达的,不是谁先拿到最强大的模型,而是谁能把"让 AI 持续稳定地完成复杂任务"这件事真正工程化。

© 版权声明

相关文章

暂无评论

暂无评论...

网址设置

网址样式切换

详细

网址卡片按钮

显示

布局设置

左侧边栏菜单

展开

页面最大宽度

1700px

搜索框设置

搜索框背景上下位置

仅对图片背景生效

50%

自定义搜索框背景

  • 静图

    随机壁纸

  • 静图

    随机4K

自定义搜索框高度

  • 聚焦
  • 信息
  • 默认
设置