Claude Opus 正在学会"自己干活"：五条实战经验让 AI 真正实现长时自主

你有没有过这种体验——早上给 AI 下了一个任务，出门办事，晚上回来发现它早就跑偏了，甚至中途卡死报错？说实话，这种"AI 帮你干活"的故事听起来美好，但在实际场景里，能让一个大模型连续稳定运行几个小时甚至一整天，中间不翻车、不需要你反复干预——这件事的难度，远超大多数人的想象。

最近，Anthropic 前安全工程师 Boris Cherny 在社交平台上分享了一套实战方法，核心命题只有一个：如何让 Claude Opus 真正实现长时自主运行。这五条建议不是纸上谈兵，而是来自一线开发者的真实经验。这套方法的完整程度，让它迅速登上了 AI 资讯平台的热榜第一。

我仔细研究了这套方案，又结合了国内 AI 实践者邵猛的补充评论，发现里面有几个关键点非常值得展开聊聊。

为什么你的 Claude Opus 总是在"掉线"

先说一个很多人踩过的坑：本地运行 Claude Code。

Boris Cherny 在第一条建议里就明确提到，优先使用云端 Claude Code，而不是本地部署版本。原因很直接——本地机器会休眠、会断网、会内存爆掉。一旦你的笔记本进入睡眠模式，整个任务链就断了，前面积累的所有中间状态和上下文全部归零。这意味着什么？假设你让 Claude Opus 帮你跑一个需要两小时的数据分析任务，如果本地环境中途休眠了，你回来面对的可能不是一份完整报告，而是一个卡在某个中间步骤的错误状态。更要命的是，你还得重新花 token 重新跑，白白浪费资源。

云端 Claude Code 的核心优势在这里体现得淋漓尽致：只要保持网络连接，任务可以在服务器端持续运行，你甚至可以关闭本地设备。邵猛在评论中特别强调了一个前提——自动权限（Auto Permissions）是实现这一切的前提条件。没有自动权限，Claude 在每一步关键操作上都会停下来等你确认，时间长了根本谈不上"自主运行"。

从单 Agent 到 Agent 编排：跨越质变的关键一步

接下来是 Boris 方案中最具技术深度的一条：Dynamic Workflows。

这才是让 Claude Opus 从"帮我做事"进化到"帮我开公司"的核心能力。Dynamic Workflows 本质上是一套任务编排框架，允许你把一个复杂目标拆解成数百甚至数千个子 Agent 任务，然后让它们按逻辑顺序或并行方式协同执行。打个比方，传统的单 Agent 模式就像你雇了一个能力很强的员工，但它只能一件一件做事；Dynamic Workflows 则相当于你建了一整套流水线，每个环节有专门的 Agent 负责，最终产出的是完整的产品。

这听起来很美，但邵猛给出了一个很实际的提醒——/goal 和 /loop 这类指令非常适合高难度、多步骤的复杂任务，但 token 消耗相当高。在商业化场景中，这意味着成本控制是一个必须认真对待的问题。一个持续运行数天的任务，如果用了大量的 /goal 嵌套和循环调用，最终的 token 账单可能会让中小型项目望而却步。所以在他看来，这套方法更适合"大活"——比如完整的系统架构设计、跨模块代码重构、大规模文档整理——而不太适合那些本可以几秒完成的简单任务。

自验证：最容易被忽视、却最关键的环节

整篇文章我认为最值得单独拿出来说的，是 Boris 提到的端到端自验证能力，以及邵猛对此的强调——"端到端验证最重要，否则 token 可能白费。"

这句话背后是一个很多人在实践中才真正理解的痛点：AI 跑了一个小时，生成了大量输出，结果最后发现中间某个环节出了问题，导致后续所有结果都建立在错误前提之上。如果这个错误没有被发现，你可能还要花更多 token 去修复。更极端的情况是——你甚至不知道结果已经错了，直到有人告诉你。

端到端自验证的核心思路是：让 Claude Opus 在任务执行过程中，不仅产出结果，还要持续验证这些结果是否符合预期。这包括中间步骤的逻辑一致性、输出格式的合规性，以及与最初目标的偏离程度。一个具备良好自验证能力的 Agent 链路，才能真正做到"放出去就跑，跑完就可用"。

坦率地讲，目前这套自验证方案在工程实现上还有不少挑战。不是所有的验证都能自动化，有些验证本身也需要消耗大量 token。邵猛把它放在最重要的位置，恰恰说明在实际落地中，这个环节的缺失是导致很多"看起来运行成功、实际上结果不可用"的根本原因。

让 AI 真正"打工"，还有多远

回顾 Boris Cherny 的五条建议和邵猛的补充，一条清晰的逻辑链浮现出来：云端部署解决稳定性问题，Auto Mode 解决审批效率问题，Dynamic Workflows 解决规模化问题，/goal 和 /loop 解决持续推进问题，自验证解决质量问题。 这五块拼图合在一起，才构成一个真正意义上的"AI 长时自主运行"方案。

我个人的判断是，这套方法代表了当前 AI Agent 发展的一个重要方向——从"我告诉你怎么做"的指令驱动，走向"你自己规划、你自己执行、你自己检查"的自主驱动。当然，挑战也真实存在：token 成本、任务规划的正确性、异常情况的处理——这些问题目前还没有被完全解决。但 Boris 和邵猛给出的这套实战框架，至少让"让 AI 真正替你打工"这件事，从科幻叙事变成了可以触及的工程实践。

对于正在考虑将 Claude Opus 引入工作流的团队，我的建议是先从一个小而完整的任务开始，完整地走一遍这五个环节，感受每个节点的真实挑战在哪里，而不是一上来就尝试用 Dynamic Workflows 构建庞大的 Agent 网络。有些弯路，只有自己走过了，才知道那些"听起来简单"的建议背后藏了多少细节。

AI 自主运行的时代可能比我们想象的来得更快，而决定谁能率先抵达的，不是谁先拿到最强大的模型，而是谁能把"让 AI 持续稳定地完成复杂任务"这件事真正工程化。

# 软件科技 # Agent编排 # AI Agent # Anthropic # Claude AI # Claude Code # Claude Opus # Dynamic Workflows # 云端部署 # 人工智能 # 任务编排 # 端到端自验证 # 自主运行 # 邵猛 # 长时自主

本站专栏文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Claude Opus 正在学会"自己干活"：五条实战经验让 AI 真正实现长时自主

Claude Opus 正在学会"自己干活"：五条实战经验让 AI 真正实现长时自主

为什么你的 Claude Opus 总是在"掉线"

从单 Agent 到 Agent 编排：跨越质变的关键一步

自验证：最容易被忽视、却最关键的环节

让 AI 真正"打工"，还有多远

小模型为何总学不会？一项覆盖400万到40亿参数的研究揭开了秘密

当AGENTS.md成为负担：这项大规模研究戳破了AI编程助手的最大幻觉

相关文章

暂无评论

最新文章

站点公告

网址设置

网址样式切换

网址卡片按钮

布局设置

左侧边栏菜单

页面最大宽度

搜索框设置

搜索框背景上下位置

自定义搜索框背景

自定义搜索框高度

Claude Opus 正在学会"自己干活"：五条实战经验让 AI 真正实现长时自主

Claude Opus 正在学会"自己干活"：五条实战经验让 AI 真正实现长时自主

为什么你的 Claude Opus 总是在"掉线"

从单 Agent 到 Agent 编排：跨越质变的关键一步

自验证：最容易被忽视、却最关键的环节

让 AI 真正"打工"，还有多远

小模型为何总学不会？一项覆盖400万到40亿参数的研究揭开了秘密

当AGENTS.md成为负担：这项大规模研究戳破了AI编程助手的最大幻觉

相关文章

暂无评论

最新文章

站点公告

🇦🇩

网址设置

网址样式切换

网址卡片按钮

布局设置

左侧边栏菜单

页面最大宽度

搜索框设置

搜索框背景上下位置

自定义搜索框背景

自定义搜索框高度