
当AI智能体开始"断舍离":AdaCoM如何用上下文管理让长任务效率飙升39%
被上下文淹没的智能体:AI Agent的阿喀琉斯之踵
我一直觉得,这两年AI Agent概念火得一塌糊涂,但真正用过的人都有一个相同的感受——它会在长任务里迷失方向。你让它规划一个为期三天的调研报告,它可能在第三步就忘了第一步说了什么;你让它执行一个需要二十步的网页操作,做到第十五步的时候它突然开始重复前面的动作。这种"遗忘症"听起来像个玩笑,但它恰恰是制约Agent走向生产级可用的核心瓶颈。
为什么?因为大多数Agent本质上是在吃老本——把整个对话历史全部塞进上下文窗口,token数量随着任务推进线性增长,等到上下文窗口快撑满的时候,模型的注意力机制就开始"力不从心"了。简单粗暴的解决方案是截断或摘要,但这样做等于把任务关键信息一并丢弃,模型反而更容易出错。
这就是最近引发热议的AdaCoM想要解决的核心问题。它不走增加上下文窗口容量的老路,而是让模型学会主动管理自己的上下文——该留的留,该删的删,该改写的改写。这不是简单的压缩,而是一种动态的、自适应的工作记忆管理机制。测试结果显示,在web search和deep research两类典型长任务上,平均性能提升了39%。
AdaCoM的核心思路:给Agent配一个"私人助理"
AdaCoM的设计哲学非常有意思。它并不是去改造主Agent本身,而是给主Agent配备了一个独立的、轻量级的小模型作为"上下文管理器"。这个上下文管理器在主Agent的每一步操作之前,都会审视当前的工作上下文,决定如何编辑——重写、合并、剪枝或者保留——然后把整理后的上下文交还给主Agent使用。主Agent本身保持冻结状态,不需要任何额外训练,也不需要暴露模型权重。
这让我想起一个很形象的比喻:如果把主Agent比作一家公司的业务部门,那AdaCoM就是它的行政秘书。业务部门专注于执行任务,秘书负责确保他们手头的工作台面不会乱成一团。秘书不需要了解业务细节,只需要知道"这份文件该归档了,那份笔记需要补充完整,某段历史记录已经过时可以移除了"。
关键在于"自适应"这三个字。 AdaCoM的实验揭示了一个此前未被充分关注的规律:不同能力的Agent对上下文的需求截然不同。能力较强的智能体——我们可以理解为参数规模更大或预训练质量更高的模型——在面对丰富的原始历史记录时表现更好,它们能够从中筛选有效信息,因此AdaCoM选择保留更多原始上下文;能力较弱的智能体则不然,上下文越冗长它越容易被干扰,所以AdaCoM会生成更简短、更结构化的"任务笔记"交给它。
这个发现本身就是一个很有价值的贡献。它意味着上下文管理策略不应该一刀切,需要根据模型能力来动态调整。用大白话讲:强模型记性好在精,能记住丰富的细节;弱模型脑子不够用,得靠别人帮忙做笔记,而且笔记越清晰越好。
39%提升背后的技术细节:它到底在做什么
那么AdaCoM具体是怎么运作的呢?它的本质是一个轻量级的上下文编辑模型,输入是当前主Agent的完整工作上下文(包括任务历史、中间结果和当前状态),输出是经过编辑处理后的上下文版本。编辑操作可以分为四类:重写(对冗长表述进行精简和清晰化)、合并(将多个相关的中间步骤聚合为一个条目)、剪枝(移除已被证明不再相关的历史信息)以及保留(对关键信息保持原样不动)。
在web search场景中,Agent需要执行多轮搜索、阅读结果、调整关键词、再次搜索的循环操作。原始历史里充满了重复的搜索尝试和大量低质量的中间阅读片段,这些信息在传统方案里会一直占据宝贵的上下文空间。经过AdaCoM处理后,重复搜索被合并,关键发现被提炼为结构化笔记,无关页面浏览记录被彻底剪枝。主Agent拿到的是一份"高信号密度"的工作上下文,执行下一步搜索的准确率因此大幅提升。
在deep research场景中,AdaCoM的优势更加明显。这类任务通常涉及数十步的信息收集、交叉验证和论证构建,过程中会产生大量的中间结论和引用关系。AdaCoM会持续维护一个动态更新的"研究笔记",将分散在各处的关键洞察汇总到一处,同时移除那些已被后续研究推翻的早期假设。这相当于让模型始终在一个"最新版本的工作文档"上操作,而不是面对一团越来越膨胀的原始记录。
39%这个数字来自两项任务的综合评测。值得强调的是,这个提升是在没有修改主Agent任何参数、没有改变模型架构的前提下取得的。AdaCoM本身是一个独立运行的小模型,训练成本远低于主Agent,这使得它的实用性大大增强——不需要为每个不同的Agent从头训练专属的上下文管理模块,一套AdaCoM可以在不同任务类型的主Agent上通用。
更大的图景:上下文管理正在成为一门新学问
AdaCoM让我想到一个更大的趋势——上下文管理正在从"被忽视的工程问题"变成一个独立的研究领域。过去几年,大家的关注点基本集中在两个方向:一是扩大上下文窗口,从4K token到128K再到1000K以上;二是通过稀疏注意力、kv-cache优化等工程手段降低长上下文的计算成本。这些当然重要,但AdaCoM走的是第三条路——不是让上下文能装更多东西,而是让上下文的内容质量更高。
这背后的认知其实很朴素:上下文窗口的容量不是无限的,注意力机制的效率也不是线性的。与其不断堆砌硬件能力来容纳更多token,不如让模型学会"断舍离",主动管理和优化自己使用的信息。这有点像人类大脑的工作方式——我们不是存储所有经历的原始记录,而是不断提炼、整合、重构,形成高层次的认知框架。
从产业角度看,AdaCoM的方案有一个很实际的优势:部署灵活。因为主Agent保持冻结,企业不需要为了获得更好的长任务性能而重新训练或微调整个Agent系统。只需要接入一个上下文管理模块,就能让现有的Agent在长任务场景下表现显著提升。这对于那些已经部署了大量Agent应用但苦于长任务表现不稳定的团队来说,吸引力是很大的。
当然,AdaCoM目前仍然是一个研究论文中的方案,在真实生产环境中的表现还需要更多验证。上下文编辑的质量如何评估?编辑过程本身会不会引入新的错误?如何确保关键信息不被误删?这些问题都需要在更大规模的测试中逐步解答。但我个人的判断是,这条技术路线指向了一个正确的方向——未来Agent的竞争,不只是模型智能的比拼,也将是上下文管理能力的比拼。谁能让模型始终在"正确的信息"上思考,谁就能在复杂任务中走得更远。
我始终相信,AI发展的一个重要标志是它越来越像人——不只是越来越"聪明",而是越来越懂得什么时候该记住,什么时候该忘记。AdaCoM迈出的,也许正是这样一小步。
