AIGC新知
分享AI实践,探讨人与AI如何协作 --〉智能体 | 工作流 | 大模型 | AI赋能。
292篇原创内容
我们最新推出的 Research 功能,赋予了 Claude 利用多个AI智能体(Agent)协同工作的能力,以更高效地探索复杂问题。
从一个原型到稳定的生产级系统,这段旅程充满了工程挑战,也让我们学到了关于系统架构、工具设计和提示词工程的宝贵经验。
本文将深入剖析我们构建这一复杂系统所遵循的核心原则。我们相信,这些经验对于任何想要构建自己的多智能体系统的开发者来说,都将极具价值。
本文是针对claude最新blog的解读。
一、为什么选择多智能体系统?
研究工作常常涉及开放式问题,其探索路径充满未知与动态变化。你无法为复杂课题预设一条固定的解决路线,因为真正的研究总是在不断发现新线索、调整方向的过程中前进。
这种不确定性,恰恰是AI智能体大显身手的舞台。
1. 模拟人类的集体智慧
多智能体系统的核心优势在于“分而治之”与“并行处理”。它就像一个高效的研究团队:一个“首席研究员”负责规划,然后将任务分解,交给多个“子研究员”(Subagent)去并行探索不同方面。
每个子智能体在自己的上下文中独立工作,深入挖掘信息,然后将最精华的洞见“压缩”并汇报给首席,从而实现高效的“情报压缩”。
正如人类社会近万年的发展证明,个体的智力提升是线性的,而群体的集体智慧和协作能力则带来了指数级的飞跃。AI智能体同样如此,单个智能体能力再强也有极限,而智能体集群能完成的任务则远超想象。
2. 惊人的性能提升
我们的内部评估显示,对于需要同时探索多个独立方向的“广度优先”类查询,多智能体系统表现尤为出色。
在一个内部研究评估中,由 Claude Opus 4 担任首席、Claude Sonnet 4 担任子智能体的多智能体系统,其性能比单兵作战的 Claude Opus 4 高出整整 90.2%。
例如,在“找出标普500信息技术板块所有公司的董事会成员”这一任务中,多智能体系统通过高效分解任务,成功找到了答案;而单个智能体则因缓慢的串行搜索而最终失败。
3. 成功的关键:足够的“思考量”
我们发现,性能差异的95%可由三个因素解释:模型选择、工具调用次数,以及最重要的——Token(代币)使用量。其中,Token使用量本身就解释了80%的性能方差。这验证了我们的架构设计:通过将工作分配给拥有独立上下文窗口的多个智能体,系统获得了更强大的并行推理能力,投入了足够的“思考量”来解决问题。
当然,凡事皆有代价。 多智能体系统消耗的Token数量非常可观。我们的数据显示,智能体交互的Token消耗约为普通聊天的4倍,而多智能体系统更是高达15倍。这意味着,它更适用于那些“结果价值远高于计算成本”的高价值任务。
每天解决一个日常生活的小痛点,今天,你想让我帮助你解决什么?
AIGC新知:畅所欲言,或许,你就是下一个拯救世界的人。
转发3赞1
问一问
二、系统架构概览:总指挥与执行者
Research系统采用“编排者-工作者”(Orchestrator-Worker)模式,即一个首席智能体(Lead Agent)协调整个流程,并将具体任务委派给并行的专业子智能体。
架构图
工作流程详解:
与传统的检索增强生成(RAG)静态地拉取信息块不同,我们的系统采用动态的多步研究过程。
原文解释:当用户提交查询时,系统会创建一个 LeadResearcher 代理,该代理将进入迭代研究流程。LeadResearcher 首先仔细考虑该方法并将其计划保存到 Memory 中以持久保存上下文,因为如果上下文窗口超过 200,000 个令牌,它将被截断,因此保留计划很重要。然后,它会创建具有特定研究任务的专用子代理(此处显示了两个,但可以是任意数量)。每个 Subagent 独立执行 Web 搜索,使用交错思维评估工具结果,并将结果返回给 LeadResearcher。LeadResearcher 综合这些结果并决定是否需要更多研究 — 如果需要,它可以创建额外的子代理或改进其策略。一旦收集到足够的信息,系统就会退出研究循环并将所有发现传递给 CitationAgent,后者会处理文档和研究报告以确定引用的特定位置。这可确保所有声明都正确归因于其来源。最终的研究结果(包括引文)将返回给用户。
1、启动与规划
用户提交查询后,系统创建一个首席研究员
(LeadResearcher)智能体。
它首先会思考并制定一个详细的研究计划,并将其保存到外部记忆(Memory)中,以防在长流程中因上下文窗口限制而丢失关键计划。
如图所示
2、任务分解与并行执行
首席研究员
根据计划,创建出多个子智能体
(Subagent),并为每个分配明确的研究任务(例如,图中的子智能体分别负责搜集不同AI公司的信息)。
如图进行了标注
3、独立研究与评估
每个子智能体
独立进行网页搜索,并利用“交错思考”(interleaved thinking)技术来评估工具返回结果的质量,然后将发现的关键信息返回给首席研究员
。
如图所示
4、综合与迭代
首席研究员
综合所有子智能体的发现,判断信息是否充足。如果需要,它可以启动新一轮的研究,或创建更多的子智能体。
5、引用与生成
一旦信息收集完毕,系统会将所有原始文档和研究报告交给一个专门的引文智能体
(CitationAgent)。它负责精确定位文中每个论断的来源,并添加引用,确保所有信息的准确性和可追溯性。
图 引文智能体
(CitationAgent)进行溯源论断
6、交付结果
最终,一份附有完整引用的高质量研究报告将呈现给用户。
多智能体系统的复杂性源于其“协同”过程。我们早期的智能体常常犯错,比如为简单问题创建50个子智能体,或因为彼此干扰而陷入混乱。
以下是通过提示词工程解决这些问题的核心原则:
1、换位思考,理解智能体
要优化提示词,你必须先理解智能体的“心智模型”。
我们通过模拟器,一步步观察智能体的行为,这让我们能立即发现失败模式,例如在已有足够信息时仍不停止搜索,或选择错误的工具。
2、教会“总指挥”如何分配任务
首席智能体必须向下属下达清晰的指令,包括:明确的目标、输出格式、推荐使用的工具和信源,以及清晰的任务边界。模糊的指令(如“研究半导体短缺”)会导致子智能体工作重叠或偏离方向。
3、根据任务复杂性伸缩投入
我们在提示词中嵌入了资源分配规则。
例如:简单事实查找只需1个智能体调用3-10次工具;复杂的比较分析可能需要2-4个子智能体,每个调用10-15次。这能有效防止在简单问题上“用力过猛”。
4、精心设计和选择工具
工具的API描述至关重要。一个糟糕的描述会把智能体引向歧途。我们为智能体设定了明确的启发式规则:先检查所有可用工具,优先选择专用工具而非通用工具。
5、让智能体自我改进
Claude 4模型本身就是出色的提示词工程师。我们创建了一个“工具测试智能体”,当给它一个有缺陷的工具时,它会尝试使用并重写工具描述以避免未来的失败。通过这个过程,未来智能体使用新描述完成任务的时间减少了40%。
6、先广泛探索,再深入钻研
智能体倾向于使用过长、过具体的查询,导致结果很少。我们通过提示词引导它们:先用简短、宽泛的查询了解概况,再逐步缩小范围。
7、引导思考过程
利用扩展思考模式(Extended thinking mode)作为智能体的“草稿纸”。首席智能体用它来规划,子智能体用它来评估搜索结果、发现不足并规划下一步行动,这大大提升了它们的适应性和效率。
8、并行工具调用,实现速度革命
引入了两种并行化:
1)首席智能体并行启动3-5个子智能体;
2) 子智能体并行调用3个以上的工具。
这一改变,将复杂查询的研究时间缩短了高达90%,让过去需要数小时的工作在几分钟内完成。
每天解决一个日常生活的小痛点,今天,你想让我帮助你解决什么?
AIGC新知:畅所欲言,或许,你就是下一个拯救世界的人。
转发3赞1
问一问
四、如何有效评估智能体?三大支柱
评估多智能体系统极具挑战,因为它们是非确定性的——两次运行可能走上完全不同但都有效的路径。我们不能只看过程,更要看结果。
支柱一:立即开始,小样本评估
在开发早期,一个小的提示词调整可能带来巨大的性能提升(例如成功率从30%跃升到80%)。我们从大约20个代表性查询开始,这足以让我们快速验证改动的效果。不要等到能建立大型评估集时再行动。
支柱二:利用大语言模型(LLM)进行规模化评估
我们使用一个“LLM评委”,根据一份详细的评分标准(如事实准确性、引文准确性、完整性、信源质量、工具效率等)来给研究结果打分。这种方法让我们能够规模化地评估成百上千份输出。
支柱三:人工评估不可或缺
自动化评估会错过很多边缘案例。例如,我们的人工测试员发现,早期智能体偏爱SEO优化的内容农场,而非权威的学术PDF或个人博客。正是基于这些反馈,我们才在提示词中加入了信源质量的启发式规则。
每天解决一个日常生活的小痛点,今天,你想让我帮助你解决什么?
AIGC新知:畅所欲言,或许,你就是下一个拯救世界的人。
转发3赞1
问一问
五、从原型到生产:我们遇到的工程挑战
构建AI智能体,“最后一公里”往往占据了整个旅程的大部分。从能在开发者电脑上运行的原型,到一个可靠的生产级系统,中间的鸿沟远比想象的要宽。
尽管挑战重重,多智能体系统已经证明了其在开放式研究任务中的巨大价值。用户反馈Claude帮助他们发现了未曾考虑过的商业机会,解决了棘手的技术难题,节省了数天的工作量。
如上这张图,显示当今人们使用 Research 功能的最常见方式的 Clio 嵌入图。
主要用例类别是跨专业领域开发软件系统 (10%)、开发和优化专业和技术内容 (8%)、制定业务增长和创收战略 (8%)、协助学术研究和教育材料开发 (7%),以及研究和验证有关人员、地点或组织的信息 (5%)。
另外,我们发起了一个问一问调研,感兴趣的可以留言一下。
每天解决一个日常生活的小痛点,今天,你想让我帮助你解决什么?
AIGC新知:畅所欲言,或许,你就是下一个拯救世界的人。
转发3赞1
问一问
我们相信,通过精心的工程设计、全面的测试、细致的提示词与工具打磨,以及跨团队的紧密协作,多智能体系统将持续改变我们解决复杂问题的方式。
原文:https://www.anthropic.com/engineering/built-multi-agent-research-system