你有没有想过:为什么同样的 AI 模型,在不同系统中的表现天差地别?
当你让 AI 帮你写一段代码,有时它能完美完成任务,有时却连基本的逻辑都搞错。
这背后隐藏着一个被很多人忽视的问题:如何构建一个真正可靠的智能体系统?
今天,我想分享一篇文章来深入探讨这个话题。这篇介绍了将智能体系统准确率提升 50% 的实用模式,以及它们所带来的成本代价。以下内容译自 《Agentic System Patterns That Increased Accuracy by 50% (And What They Cost)》。
智能体系统已经开始被部署用于处理复杂任务:构建软件、进行研究、分析数据和自动化工作流程。但随着它们从原型走向生产环境,团队面临着一个根本性问题:如何构建一个能够可靠处理任何任务的智能体系统?
答案不仅仅是更好的提示词或更复杂的模型,而是要理解三个关键维度之间的权衡:
真相是,大多数提高准确率的技术也会增加成本和延迟。多步推理、并行验证、自我修正循环——它们都能让系统变得更好,但代价不菲。关键在于知道何时付出这个代价,以及如何在你的约束范围内进行优化。
这篇文章提炼了在生产环境中构建智能体系统的经验教训。每个技巧都包含对成本、延迟和准确率的具体影响指标,以及何时应用的指导原则。读完本文后,你将拥有一个框架,可以就智能体系统架构做出明智决策。
注:这篇文章的灵感来自于最近使用 Blackbox AI 完成多个编码任务的经历,观察到他们的自主智能体如何处理规划、执行和自我修正(这已是智能体系统中常见的模式)。让我想要记录下使智能体系统在生产环境中工作的底层模式。
构建智能体系统时,每个决策都会影响这三个维度。理解如何衡量和平衡它们对于生产系统至关重要。
含义: 运行智能体系统的总财务支出。
组成部分:
如何衡量: 跟踪每次请求的成本、月度支出和每次成功任务完成的成本。成本因模型选择、上下文长度、API 调用次数和基础设施要求而有很大差异。
含义: 从用户提交任务到收到最终结果的时间。
组成部分:
如何衡量: 跟踪端到端延迟(p50、p95、p99)、每步时间和用户感知的等待时间。可接受的延迟取决于你的用例——实时系统的要求比批处理更严格。
含义: 系统输出的正确性和可靠性。
组成部分:
如何衡量: 使用特定任务的指标(代码正确性、答案准确性)、人工评估、自动化测试和错误跟踪。目标准确率取决于你的领域和错误的代价。
准确率 = f(成本, 延迟)
在深入具体技术之前,有一个框架可以帮助你根据约束条件和需求决定应用哪些技术。
首先明确定义你的约束条件:
评估你的任务:
对于简单任务:
对于中等复杂度:
对于高复杂度:
记住要从简单开始,测量一切,只在提供明确价值时才增加复杂性。
含义: 将智能体分解为两个专门的组件:一个将任务分解为子任务的规划器,和一个执行这些子任务的执行器。
工作原理:
示例:
Task: "Build a REST API for user authentication"
-> Planner Agent generates:
1. Create database schema (tool: sql_executor)
2. Implement login endpoint (tool: code_generator)
3. Add password hashing (tool: code_generator)
4. Write tests (tool: test_generator)
-> Executor Agent runs each step真实案例: Blackbox AI 的自主编码智能体使用这种模式进行代码生成。它解释目标,将其转换为有序的文件编辑计划,然后通过编写和修改代码来执行该计划。明确的规划→执行分离帮助它更可靠地处理多步任务。
对评估标准的影响:
何时使用:
含义: 一种提示工程技术,要求模型在得出最终答案之前展示其推理过程。
工作原理:
示例:
Query: "What's the best database for this use case? Think step by step"
What are the requirements? (scale, consistency, latency)
What are the trade-offs?
Which databases match these requirements?
Final recommendation: [answer]真实案例: 这种模式在生产工作流中很常见,如调试和根本原因分析,其中即使最终答案很短,中间推理也能减少错误。
对评估标准的影响:
何时使用:
额外好处: 思维链在切换不同模型时提高鲁棒性,因为推理步骤使过程更加透明和可调试。
含义: 使用单独的智能体来验证计划或输出,并提供改进反馈。
工作原理:

示例:
Planner generates plan -> Verifier checks:
- Are all steps necessary?
- Are tools correctly selected?
- Are there missing steps?
-> Feedback to planner -> Refined plan -> Execute真实案例: Blackbox AI 的自主智能体使用自我修正作为内置的验证机制。生成代码后,它会自动测试和验证更改是否按预期工作。如果出现错误,它会分析问题、调试代码并尝试新方法——本质上是作为一个连续循环中自己的验证智能体。这种自我修正持续到任务完成,展示了验证如何直接集成到执行周期中,而不是作为一个单独的步骤。
对评估标准的影响:
何时使用:
最佳实践:
含义: 并行运行多个智能体以生成计划或输出,然后使用评判器/聚合器选择或组合最佳结果。
工作原理:

Multiple Agents
真实案例: Blackbox AI 使用这种方法进行代码生成任务。用户选择 2-5 个不同的模型(Claude、Codex、Gemini 或 Blackbox)并行处理同一任务。每个智能体在单独的 Git 分支中生成代码,AI 评判器根据质量、效率和错误倾向评估所有输出,以选择最佳实现。并行执行意味着延迟大致与单个智能体相同,而通过集成效应准确率显著提高。
对评估标准的影响:
何时使用:
优化提示: 从 2-3 个智能体开始。收益递减很快出现。5 个智能体可能只比 3 个好 5-10%,但成本高 67%。
含义: 使用文件系统(markdown、文本文件或结构化格式)来维护状态、跟踪进度并在智能体调用之间提供上下文。
工作原理:
真实案例: Claude Code 广泛使用这种方法。它通过 markdown 文件维护持久状态,如 CLAUDE.md(项目规则和系统提示)、NOW.md(当前工作状态)、progress.md(执行日志)和 task_plan.md(即将到来的任务)。这些文件在会话之间持久存在,允许 Claude 恢复工作,保持对已完成工作的了解,并避免重复之前的步骤。文件系统充当智能体的记忆,每个文件在维护长期状态和项目连续性方面都有特定用途。
示例:
Task: Build authentication API
Plan
- [x] Create database schema
- [x] Implement login endpoint
- [ ] Add password hashing
- [ ] Write tests
Execution Log
Step 1: Database Schema
Tool: sql_executor
Input: CREATE TABLE users...
Output: Table created successfully
Step 2: Login Endpoint
Tool: code_generator
Input: Generate Flask login route
Output: [code generated]对评估标准的影响:
何时使用:
额外好处:
构建生产就绪的智能体系统需要平衡成本、延迟和准确率。我们介绍的技术——如规划器-执行器架构、思维链、验证智能体、多个智能体和文件系统状态管理——是经过验证的构建块,以更高的延迟和费用为代价提高准确率。
关键要点:
这里的技术构成了坚实的基础,但生产系统还有额外的考虑因素:错误处理、重试逻辑、速率限制、监控、安全性和可扩展性。这些将在第二部分中介绍,我们将深入研究运营关注点、优化策略和高级模式。
目前,从这五种技术开始,测量一切,并根据你的特定约束和要求进行迭代。框架是你的指南,但你的指标才是真相。