系列总结 · 12期完整梳理 涵盖:LLM · Prompt · 幻觉 · Embedding · RAG · 知识库 · Agent · MCP · Skills · Rules · 工程化 · AI测试

AI知识体系全景封面
在深入每个知识点之前,先记住这个串联公式:
🧠 LLM大脑 + 💬 Prompt语言 + 🗄️ RAG记忆 + 🔧 MCP双手 + 🎯 Skills技能 + 📋 Rules规范 = 🤖 AI智能员工这 12 期内容,就是把这个公式的每一项讲透。
理解AI的本质,才能真正用好AI

认知篇:LLM、Prompt、AI幻觉
LLM 是什么? 大语言模型(Large Language Model)的本质是:基于海量文本训练的概率预测机器。给定一段文字,它预测"下一个词最可能是什么",不断重复这个过程,就生成了完整的回答。
为什么这么强大? 当模型参数规模突破某个阈值,会出现"涌现能力"(Emergent Abilities)——一些在小模型上完全不存在的能力,突然在大模型上出现了:
核心概念速查:
概念 | 解释 |
|---|---|
Token | 模型处理文本的最小单位,约等于半个中文字或3/4个英文字母 |
上下文窗口 | 模型能"看到"的最大文本长度,决定了记忆范围 |
Temperature | 控制输出随机性,0=保守精确,1=创意发散 |
微调(Fine-tuning) | 在预训练模型基础上,用特定数据继续训练,使其适应特定任务 |
RLHF | 人类反馈强化学习,让模型学会"人类喜欢的回答方式" |
代表模型: GPT-4o(OpenAI)、Claude 3.5(Anthropic)、Gemini 2.0(Google)、DeepSeek-V3(国产)
Prompt 是什么? Prompt 是你发给 AI 的指令。同样一个问题,问法不同,回答质量可以差10倍。Prompt 工程就是研究如何让 AI 给出最好回答的艺术与科学。
黄金四要素:
角色(Role):你是一位资深产品经理...
任务(Task):请帮我分析以下需求的可行性...
背景(Context):这是一个面向B端企业的SaaS产品...
格式(Format):请用结构化表格输出,包含可行性、风险、建议三列进阶技巧:
常见错误:
什么是 AI 幻觉? AI 幻觉(Hallucination)是指 AI 自信地给出错误信息。它不是"不知道就说不知道",而是会编造听起来合理、实际上错误的内容。
为什么会产生幻觉? 根本原因在于 LLM 的工作方式——它是在预测"最可能的下一个词",而不是在"查找事实"。当训练数据中没有某个信息,或者问题超出模型知识边界时,模型会"脑补"一个听起来合理的答案。
幻觉的典型场景:
应对方案:
方案 | 原理 | 效果 |
|---|---|---|
RAG(检索增强) | 让 AI 基于真实文档回答,而非凭记忆 | ⭐⭐⭐⭐⭐ 最有效 |
要求溯源引用 | 让 AI 给出信息来源,便于验证 | ⭐⭐⭐⭐ |
多轮验证 | 换个角度再问一次,交叉验证 | ⭐⭐⭐ |
降低 Temperature | 减少随机性,输出更保守 | ⭐⭐ |
人工复核 | 关键信息必须人工核实 | ⭐⭐⭐⭐⭐(不可省略) |
核心认知:AI 是概率机器,不是事实数据库。高风险决策永远需要人工复核。
有了记忆,AI 才能成为真正的知识助手

记忆篇:Embedding、RAG、知识库
Embedding 是什么? Embedding(向量化)是把文字、图片、代码等任何内容,转换成一组数字(向量)的技术。这组数字捕捉了内容的语义信息,使得含义相近的内容,在数字空间里的距离也更近。
为什么需要 Embedding? 计算机只懂数字,不懂语言。Embedding 是连接自然语言与数学计算的桥梁。有了向量,就可以:
直觉理解:
"苹果" → [0.23, -0.87, 0.45, 0.12, ...]
"香蕉" → [0.25, -0.83, 0.41, 0.09, ...] # 与苹果很近(都是水果)
"汽车" → [-0.67, 0.34, -0.89, 0.56, ...] # 与苹果很远(不同类别)向量数据库: 专门存储和检索向量的数据库,支持"找到与这个向量最相似的 Top-K 个向量"的高效查询。
主流选择:Pinecone(云端)、Weaviate(开源)、Milvus(高性能)、Chroma(轻量本地)
RAG 是什么? RAG(Retrieval-Augmented Generation,检索增强生成)是解决 AI 幻觉问题的核心方案。核心思路:不让 AI 凭记忆回答,而是先检索相关文档,再基于文档回答。
RAG 工作流程:
用户提问
↓
1. 将问题向量化(Embedding)
↓
2. 在知识库中检索最相关的文档片段(Top-K)
↓
3. 将检索结果 + 原始问题一起送给 LLM
↓
4. LLM 基于检索结果生成有依据的回答
↓
用户获得有来源的准确答案RAG vs 微调(Fine-tuning):
对比维度 | RAG | 微调 |
|---|---|---|
知识更新 | 实时更新(改文档即可) | 需要重新训练 |
成本 | 低 | 高(GPU资源) |
可解释性 | 高(可追溯来源) | 低 |
适用场景 | 知识问答、文档检索 | 特定风格/格式输出 |
RAG 的局限:
知识库工程解决什么问题? RAG 的效果上限,由知识库的质量决定。知识库工程就是让知识库持续保持高质量、高可用的工程实践。
知识库构建的五个关键环节:
1. 文档采集与清洗
2. 智能切片(Chunking) 切片策略直接影响检索质量:
3. 向量化与索引
4. 检索优化
5. 持续维护
经验法则:知识库质量 = 数据质量 × 切片策略 × 检索策略。三者缺一不可。
Agent 是 AI 从"顾问"到"员工"的关键跨越

执行篇:Agent、MCP、Skills、Rules
Agent 是什么? AI Agent(智能体)是能够自主感知环境、规划任务、调用工具、完成目标的 AI 系统。它不只是回答问题,而是真正地"做事"。
Agent vs 普通 LLM 的区别:
对比 | 普通 LLM | AI Agent |
|---|---|---|
交互方式 | 一问一答 | 自主规划,多步执行 |
工具调用 | 无 | 可调用搜索/代码/API等工具 |
记忆 | 仅当前对话 | 短期+长期记忆 |
目标导向 | 回答当前问题 | 完成复杂目标 |
自主性 | 被动响应 | 主动规划和行动 |
Agent 的核心循环(ReAct 框架):
思考(Thought):分析当前状态,决定下一步行动
↓
行动(Action):调用工具或执行操作
↓
观察(Observation):获取行动结果
↓
再次思考... (循环直到目标完成)Agent 的典型应用:
MCP 是什么? MCP(Model Context Protocol,模型上下文协议)是 Anthropic 于 2024 年底发布的开放标准,定义了 AI 模型与外部工具/数据源之间的通信规范。
MCP 解决了什么问题? 在 MCP 之前,每个 AI 应用都要自己实现与各种工具的集成,重复造轮子,维护成本极高。MCP 提供了统一的标准:工具开发者只需实现一次 MCP Server,所有支持 MCP 的 AI 客户端都能直接使用。
MCP 架构:
AI 客户端(Claude/Cursor/你的应用)
↕ MCP 协议(JSON-RPC)
MCP Server(工具提供方)
↕ 原生 API
外部服务(数据库/GitHub/Slack/文件系统/...)MCP 的三类能力:
能力类型 | 说明 | 例子 |
|---|---|---|
Tools(工具) | AI 可以调用的函数 | 执行代码、发送邮件、查询数据库 |
Resources(资源) | AI 可以读取的数据 | 文件内容、数据库记录、API 响应 |
Prompts(提示模板) | 预定义的 Prompt 模板 | 代码审查模板、文档生成模板 |
为什么 MCP 很重要? MCP 正在成为 AI 工具生态的 "USB 标准"——一旦标准确立,工具数量会爆炸式增长,AI 的能力边界将大幅扩展。目前已有数千个 MCP Server 可用,覆盖开发、办公、数据、运维等各类场景。
Skills 是什么? Skills(技能)是封装了特定领域知识、工作流程和工具调用能力的可复用模块。它让 AI 能够在特定领域发挥专家级水平,而无需每次都从零开始。
Skill 的组成:
一个完整的 Skill 包含:
├── SKILL.md # 技能说明文档(AI 加载后读取的指令)
├── prompts/ # 预定义的 Prompt 模板
├── scripts/ # 辅助脚本(Python/Shell)
└── references/ # 参考资料和示例Skills 的三大价值:
Skills 生态: 优秀的 AI 平台都在构建技能市场(如 Knot Skill 市场),用户可以直接安装他人创建的技能,也可以发布自己的技能供他人使用。
Rules 是什么? Rules(规范)是定义 AI 行为边界和工作方式的约束规则。它回答了一个关键问题:AI 应该怎么做、不应该怎么做?
为什么需要 Rules? 没有规范的 AI 就像没有规章制度的员工——可能很聪明,但行为不可预测,难以信任。Rules 让 AI 的行为变得:
Rules 的四个维度:
1. 角色定义(Who)
你是一位资深软件测试工程师,专注于移动端 App 测试,
有10年 iOS/Android 测试经验...2. 行为约束(What NOT to do)
- 不得在没有充分证据的情况下得出结论
- 不得修改用户未明确要求修改的代码
- 遇到安全相关操作必须先征得用户确认3. 工作流程(How)
收到测试需求后,按以下步骤处理:
1. 先理解业务背景
2. 识别测试重点(正常/边界/异常)
3. 生成结构化测试用例
4. 提供优先级建议4. 输出格式(Format)
测试用例必须包含:用例ID、前置条件、操作步骤、预期结果、优先级
格式:Markdown 表格Rules 的层次:
AI 的价值在于解决真实问题,创造真实价值

落地篇:AI工程化实践与AI测试
Demo 和生产系统的距离有多远? 很多人用 AI API 做了一个酷炫的 Demo,就以为可以直接上线。但 Demo → 生产,这段距离是 10 倍的工程量。工程化实践就是填平这段距离的系统方法。
五大工程化支柱:
AI API 调用随时可能失败(网络超时、限流、模型服务抖动)。生产系统必须有完整的容错机制:
# 必备的可靠性模式
重试机制:指数退避,最多3次
熔断器:失败率超阈值时自动停止调用
超时控制:每次调用设置合理超时(如30s)
降级策略:主模型不可用时切换备用模型你无法改进你看不到的东西。AI 系统的可观测性包括三个层面:
层面 | 监控内容 | 工具 |
|---|---|---|
日志 | 每次请求的 Prompt、响应、耗时、Token 用量 | ELK、Loki |
指标 | 成功率、P99 延迟、Token 消耗、费用 | Prometheus + Grafana |
链路 | 复杂 Agent 的多步执行链路追踪 | LangSmith、Jaeger |
评估 | 回答质量评分(准确性、相关性、安全性) | Ragas、自研评估框架 |
AI 系统面临独特的安全威胁:
上线前 10 条检查清单:
AI 如何改变软件测试? 传统测试面临根本矛盾:需求越来越多、迭代越来越快,但测试资源始终有限。AI 的出现,让这个矛盾有了全新的解法——让 AI 承担 60% 的重复性测试工作,让人专注于高价值的探索性测试。
AI 测试的四大核心能力:
只需提供需求文档或代码,AI 自动生成覆盖三类场景的测试用例:
用例类型 | 覆盖重点 | 人工遗漏率 |
|---|---|---|
正常流程 | 标准输入下的核心功能 | 低 |
边界条件 | 最大值、最小值、临界值 | 高(最容易漏) |
异常场景 | 网络超时、并发冲突、非法输入 | 极高 |
效率对比:人工编写 1天/50条 → AI 生成 5分钟/500条,效率提升 10 倍。
传统自动化测试最大痛点是维护成本高——UI 改了一个按钮位置,几十个脚本全部失效。AI 驱动的智能执行:
AI 分析代码提交记录、历史缺陷数据、代码复杂度,预测哪些模块最可能出现缺陷,引导测试资源优先覆盖高风险区域:
高风险因素:
- 高频变更模块(Git 提交频率高)
- 历史缺陷集中区(Bug 热点)
- 高圈复杂度代码
- 新增依赖关系影响范围AI 测试落地四步法:
第一步(第1-2周):AI 辅助用例生成
→ 选一个核心模块,AI 生成初版,人工审核补充
第二步(第3-4周):接入自动化执行
→ 转换为自动化脚本,接入 CI/CD,每次提交自动触发
第三步(第5-6周):智能分析与报告
→ AI 分析测试结果,自动生成缺陷报告
第四步(持续进行):持续学习优化
→ 基于历史数据训练,缺陷预测准确率持续提升这 12 期内容,共同构成了一个完整的 AI 知识体系

AI Agent 全景图
┌─────────────────────────────────────────────────────┐
│ 🌟 应用层 │
│ AI智能员工 · AI测试工程师 · AI产品经理 · 各类垂直Agent │
└─────────────────────────────────────────────────────┘
↑
┌─────────────────────────────────────────────────────┐
│ ⚡ Agent 核心(执行引擎) │
│ 感知(Prompt) → 推理(LLM) → 行动(工具调用) │
└─────────────────────────────────────────────────────┘
↑ ↑
┌──────────────────┐ ┌──────────────────────┐
│ 🔧 MCP 工具层 │ │ 🎯 Skills 技能层 │
│ 数据库/API/文件 │ │ 代码/文档/分析/生图 │
└──────────────────┘ └──────────────────────┘
↑ ↑
┌─────────────────────────────────────────────────────┐
│ 📋 Rules 规范层(行为边界) │
│ 角色定义 · 行为约束 · 工作流程 · 输出格式 │
└─────────────────────────────────────────────────────┘
↑
┌─────────────────────────────────────────────────────┐
│ 🗄️ 知识层(记忆体系) │
│ Embedding → 向量数据库 → RAG检索 → 知识库工程 │
└─────────────────────────────────────────────────────┘
↑
┌─────────────────────────────────────────────────────┐
│ 🧠 基础层(认知基础) │
│ LLM大模型 · Prompt工程 · 幻觉治理 · 工程化实践 │
└─────────────────────────────────────────────────────┘层次 | 对应期数 | 核心作用 |
|---|---|---|
🧠 基础层 | 第01-03期 | 理解 AI 的本质:LLM 是什么,怎么说话,有什么局限 |
🗄️ 知识层 | 第04-06期 | 给 AI 装上记忆:向量化、检索、知识库工程 |
⚡ 执行层 | 第07-10期 | 让 AI 能干活:Agent 框架、工具协议、技能封装、行为规范 |
🚀 落地层 | 第11-12期 | 让 AI 创造价值:工程化实践、AI 测试落地 |
🧑💻 开发工程师 重点掌握:MCP 协议(工具集成)+ RAG(知识库构建)+ AI 工程化实践(可靠性/可观测性) 实践路径:先用 GitHub Copilot 提效,再探索 AI Agent 自动化流程
📊 产品经理 重点掌握:LLM 基础认知 + Prompt 工程 + Agent 能力边界 实践路径:用 AI 辅助需求分析、竞品调研、PRD 写作
🧪 测试工程师 重点掌握:AI 测试四大能力 + 工具选型 + 落地四步法 实践路径:从 AI 辅助用例生成开始,逐步引入智能执行和缺陷预测
🎨 设计师/运营 重点掌握:Prompt 工程 + AI 工具使用 + 幻觉识别 实践路径:用 AI 辅助创意生成、内容创作,建立 AI 辅助工作流
这 12 期内容,覆盖了 AI 知识体系从理论到实践的完整路径。但 AI 技术演进极快,这些知识只是入门地图,而非终点。
最重要的认知:
AI 不会替代人,但会用 AI 的人会替代不会用 AI 的人。 AI 的价值不在于它有多聪明,而在于你能让它解决多少真实问题。
持续学习的建议:
本文是「每日AI知识点」系列第01-12期的完整总结。 系列涵盖:LLM · Prompt · AI幻觉 · Embedding · RAG · 知识库 · Agent · MCP · Skills · Rules · AI工程化 · AI测试
如果觉得文章对你有帮助,欢迎一键三连(点赞、收藏、转发)~