首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI 知识体系全景:从大脑到智能员工

AI 知识体系全景:从大脑到智能员工

作者头像
巫山老妖
发布2026-04-13 16:04:46
发布2026-04-13 16:04:46
260
举报
文章被收录于专栏:小巫技术博客小巫技术博客

AI 知识体系全景:从大脑到智能员工

系列总结 · 12期完整梳理 涵盖:LLM · Prompt · 幻觉 · Embedding · RAG · 知识库 · Agent · MCP · Skills · Rules · 工程化 · AI测试

AI知识体系全景封面


核心公式

在深入每个知识点之前,先记住这个串联公式:

代码语言:javascript
复制
🧠 LLM大脑 + 💬 Prompt语言 + 🗄️ RAG记忆 + 🔧 MCP双手 + 🎯 Skills技能 + 📋 Rules规范 = 🤖 AI智能员工

这 12 期内容,就是把这个公式的每一项讲透。


模块一:认知篇(第01-03期)

理解AI的本质,才能真正用好AI

认知篇:LLM、Prompt、AI幻觉

第01期 · LLM 大语言模型

LLM 是什么? 大语言模型(Large Language Model)的本质是:基于海量文本训练的概率预测机器。给定一段文字,它预测"下一个词最可能是什么",不断重复这个过程,就生成了完整的回答。

为什么这么强大? 当模型参数规模突破某个阈值,会出现"涌现能力"(Emergent Abilities)——一些在小模型上完全不存在的能力,突然在大模型上出现了:

  • • 多步推理(解数学题、写代码)
  • • 上下文学习(给几个例子,立刻学会新任务)
  • • 指令遵循("用中文回答、限100字"——做到)

核心概念速查:

概念

解释

Token

模型处理文本的最小单位,约等于半个中文字或3/4个英文字母

上下文窗口

模型能"看到"的最大文本长度,决定了记忆范围

Temperature

控制输出随机性,0=保守精确,1=创意发散

微调(Fine-tuning)

在预训练模型基础上,用特定数据继续训练,使其适应特定任务

RLHF

人类反馈强化学习,让模型学会"人类喜欢的回答方式"

代表模型: GPT-4o(OpenAI)、Claude 3.5(Anthropic)、Gemini 2.0(Google)、DeepSeek-V3(国产)


第02期 · Prompt 提示词工程

Prompt 是什么? Prompt 是你发给 AI 的指令。同样一个问题,问法不同,回答质量可以差10倍。Prompt 工程就是研究如何让 AI 给出最好回答的艺术与科学

黄金四要素:

代码语言:javascript
复制
角色(Role):你是一位资深产品经理...
任务(Task):请帮我分析以下需求的可行性...
背景(Context):这是一个面向B端企业的SaaS产品...
格式(Format):请用结构化表格输出,包含可行性、风险、建议三列

进阶技巧:

  • Few-Shot 示例法:给 AI 看几个例子,它就能举一反三。比"请帮我写"效果好得多。
  • 思维链(CoT):加上"请一步步思考",让 AI 先推理再回答,准确率大幅提升。
  • 角色扮演:让 AI 扮演特定专家,回答质量更专业。
  • 输出约束:明确格式(JSON/表格/列表)、长度、语言风格,避免废话。

常见错误:

  • • ❌ 问题太模糊:"帮我写个报告" → ✅ "帮我写一份500字的Q1季度营销复盘,包含数据亮点、问题分析、Q2建议三部分"
  • • ❌ 一次塞太多任务 → ✅ 拆分成多轮对话,每次聚焦一个目标
  • • ❌ 不给上下文 → ✅ 提供背景信息,AI 才能给出针对性回答

第03期 · AI 幻觉与可信度

什么是 AI 幻觉? AI 幻觉(Hallucination)是指 AI 自信地给出错误信息。它不是"不知道就说不知道",而是会编造听起来合理、实际上错误的内容。

为什么会产生幻觉? 根本原因在于 LLM 的工作方式——它是在预测"最可能的下一个词",而不是在"查找事实"。当训练数据中没有某个信息,或者问题超出模型知识边界时,模型会"脑补"一个听起来合理的答案。

幻觉的典型场景:

  • • 编造不存在的论文、书籍、人物
  • • 时间敏感信息(训练数据有截止日期)
  • • 精确数字、统计数据(容易张冠李戴)
  • • 小众、专业领域知识(训练数据少)

应对方案:

方案

原理

效果

RAG(检索增强)

让 AI 基于真实文档回答,而非凭记忆

⭐⭐⭐⭐⭐ 最有效

要求溯源引用

让 AI 给出信息来源,便于验证

⭐⭐⭐⭐

多轮验证

换个角度再问一次,交叉验证

⭐⭐⭐

降低 Temperature

减少随机性,输出更保守

⭐⭐

人工复核

关键信息必须人工核实

⭐⭐⭐⭐⭐(不可省略)

核心认知:AI 是概率机器,不是事实数据库。高风险决策永远需要人工复核。


模块二:记忆篇(第04-06期)

有了记忆,AI 才能成为真正的知识助手

记忆篇:Embedding、RAG、知识库

第04期 · Embedding 向量化

Embedding 是什么? Embedding(向量化)是把文字、图片、代码等任何内容,转换成一组数字(向量)的技术。这组数字捕捉了内容的语义信息,使得含义相近的内容,在数字空间里的距离也更近。

为什么需要 Embedding? 计算机只懂数字,不懂语言。Embedding 是连接自然语言与数学计算的桥梁。有了向量,就可以:

  • • 计算两段文字的语义相似度
  • • 在海量文档中快速找到最相关的内容
  • • 实现跨语言的语义搜索(中文问题找到英文答案)

直觉理解:

代码语言:javascript
复制
"苹果" → [0.23, -0.87, 0.45, 0.12, ...]
"香蕉" → [0.25, -0.83, 0.41, 0.09, ...]  # 与苹果很近(都是水果)
"汽车" → [-0.67, 0.34, -0.89, 0.56, ...] # 与苹果很远(不同类别)

向量数据库: 专门存储和检索向量的数据库,支持"找到与这个向量最相似的 Top-K 个向量"的高效查询。

主流选择:Pinecone(云端)、Weaviate(开源)、Milvus(高性能)、Chroma(轻量本地)


第05期 · RAG 检索增强生成

RAG 是什么? RAG(Retrieval-Augmented Generation,检索增强生成)是解决 AI 幻觉问题的核心方案。核心思路:不让 AI 凭记忆回答,而是先检索相关文档,再基于文档回答

RAG 工作流程:

代码语言:javascript
复制
用户提问
    ↓
1. 将问题向量化(Embedding)
    ↓
2. 在知识库中检索最相关的文档片段(Top-K)
    ↓
3. 将检索结果 + 原始问题一起送给 LLM
    ↓
4. LLM 基于检索结果生成有依据的回答
    ↓
用户获得有来源的准确答案

RAG vs 微调(Fine-tuning):

对比维度

RAG

微调

知识更新

实时更新(改文档即可)

需要重新训练

成本

高(GPU资源)

可解释性

高(可追溯来源)

适用场景

知识问答、文档检索

特定风格/格式输出

RAG 的局限:

  • • 检索质量直接影响回答质量(垃圾进,垃圾出)
  • • 超长文档处理困难(切片策略很关键)
  • • 多跳推理(需要组合多个文档的信息)能力有限

第06期 · 知识库工程实践

知识库工程解决什么问题? RAG 的效果上限,由知识库的质量决定。知识库工程就是让知识库持续保持高质量、高可用的工程实践

知识库构建的五个关键环节:

1. 文档采集与清洗

  • • 支持多格式:PDF、Word、Markdown、网页、代码
  • • 去除噪音:页眉页脚、广告、乱码、重复内容
  • • 结构化提取:表格、图表的文字化处理

2. 智能切片(Chunking) 切片策略直接影响检索质量:

  • 固定长度切片:简单但可能切断语义
  • 语义切片:按段落/章节切,保持语义完整
  • 递归切片:先大块后小块,保留层次结构
  • 重叠切片:相邻切片有重叠,避免边界信息丢失

3. 向量化与索引

  • • 选择合适的 Embedding 模型(中文推荐:text-embedding-3-large、BGE-M3)
  • • 建立向量索引(HNSW 算法,支持亿级向量高效检索)
  • • 元数据索引(来源、时间、类别,支持过滤查询)

4. 检索优化

  • 混合检索:向量检索 + 关键词检索,取长补短
  • 重排序(Reranking):用更精准的模型对检索结果重新排序
  • 查询扩展:将用户问题改写为多个变体,提高召回率

5. 持续维护

  • • 定期更新过时文档
  • • 监控检索命中率和用户满意度
  • • 基于反馈持续优化切片和检索策略

经验法则:知识库质量 = 数据质量 × 切片策略 × 检索策略。三者缺一不可。


模块三:执行篇(第07-10期)

Agent 是 AI 从"顾问"到"员工"的关键跨越

执行篇:Agent、MCP、Skills、Rules

第07期 · AI Agent 智能体

Agent 是什么? AI Agent(智能体)是能够自主感知环境、规划任务、调用工具、完成目标的 AI 系统。它不只是回答问题,而是真正地"做事"。

Agent vs 普通 LLM 的区别:

对比

普通 LLM

AI Agent

交互方式

一问一答

自主规划,多步执行

工具调用

可调用搜索/代码/API等工具

记忆

仅当前对话

短期+长期记忆

目标导向

回答当前问题

完成复杂目标

自主性

被动响应

主动规划和行动

Agent 的核心循环(ReAct 框架):

代码语言:javascript
复制
思考(Thought):分析当前状态,决定下一步行动
    ↓
行动(Action):调用工具或执行操作
    ↓
观察(Observation):获取行动结果
    ↓
再次思考... (循环直到目标完成)

Agent 的典型应用:

  • 代码 Agent:理解需求→写代码→运行调试→修复错误→返回结果
  • 研究 Agent:分解问题→搜索信息→综合分析→生成报告
  • 运维 Agent:监控告警→分析根因→执行修复→验证结果
  • 测试 Agent:分析需求→生成用例→执行测试→分析报告

第08期 · MCP 协议

MCP 是什么? MCP(Model Context Protocol,模型上下文协议)是 Anthropic 于 2024 年底发布的开放标准,定义了 AI 模型与外部工具/数据源之间的通信规范

MCP 解决了什么问题? 在 MCP 之前,每个 AI 应用都要自己实现与各种工具的集成,重复造轮子,维护成本极高。MCP 提供了统一的标准:工具开发者只需实现一次 MCP Server,所有支持 MCP 的 AI 客户端都能直接使用。

MCP 架构:

代码语言:javascript
复制
AI 客户端(Claude/Cursor/你的应用)
        ↕ MCP 协议(JSON-RPC)
MCP Server(工具提供方)
        ↕ 原生 API
外部服务(数据库/GitHub/Slack/文件系统/...)

MCP 的三类能力:

能力类型

说明

例子

Tools(工具)

AI 可以调用的函数

执行代码、发送邮件、查询数据库

Resources(资源)

AI 可以读取的数据

文件内容、数据库记录、API 响应

Prompts(提示模板)

预定义的 Prompt 模板

代码审查模板、文档生成模板

为什么 MCP 很重要? MCP 正在成为 AI 工具生态的 "USB 标准"——一旦标准确立,工具数量会爆炸式增长,AI 的能力边界将大幅扩展。目前已有数千个 MCP Server 可用,覆盖开发、办公、数据、运维等各类场景。


第09期 · AI Skills 技能体系

Skills 是什么? Skills(技能)是封装了特定领域知识、工作流程和工具调用能力的可复用模块。它让 AI 能够在特定领域发挥专家级水平,而无需每次都从零开始。

Skill 的组成:

代码语言:javascript
复制
一个完整的 Skill 包含:
├── SKILL.md          # 技能说明文档(AI 加载后读取的指令)
├── prompts/          # 预定义的 Prompt 模板
├── scripts/          # 辅助脚本(Python/Shell)
└── references/       # 参考资料和示例

Skills 的三大价值:

  1. 1. 专业化:每个 Skill 专注一个领域,比通用 AI 更精准
    • • 测试用例生成 Skill:懂边界值分析、等价类划分
    • • PPT 制作 Skill:懂排版、配色、内容结构
    • • 代码审查 Skill:懂安全漏洞、性能问题、代码规范
  2. 2. 可复用:写一次,处处可用。团队成员共享同一套技能库
    • • 避免每个人重复调试 Prompt
    • • 统一团队的 AI 使用标准
  3. 3. 可进化:基于使用反馈持续优化,技能越用越好
    • • 记录失败案例,迭代改进
    • • 自动化评估技能效果

Skills 生态: 优秀的 AI 平台都在构建技能市场(如 Knot Skill 市场),用户可以直接安装他人创建的技能,也可以发布自己的技能供他人使用。


第10期 · AI Rules 行为规范

Rules 是什么? Rules(规范)是定义 AI 行为边界和工作方式的约束规则。它回答了一个关键问题:AI 应该怎么做、不应该怎么做?

为什么需要 Rules? 没有规范的 AI 就像没有规章制度的员工——可能很聪明,但行为不可预测,难以信任。Rules 让 AI 的行为变得:

  • 可预期:知道它会怎么做
  • 可信任:知道它不会做什么
  • 可审计:行为有据可查

Rules 的四个维度:

1. 角色定义(Who)

代码语言:javascript
复制
你是一位资深软件测试工程师,专注于移动端 App 测试,
有10年 iOS/Android 测试经验...

2. 行为约束(What NOT to do)

代码语言:javascript
复制
- 不得在没有充分证据的情况下得出结论
- 不得修改用户未明确要求修改的代码
- 遇到安全相关操作必须先征得用户确认

3. 工作流程(How)

代码语言:javascript
复制
收到测试需求后,按以下步骤处理:
1. 先理解业务背景
2. 识别测试重点(正常/边界/异常)
3. 生成结构化测试用例
4. 提供优先级建议

4. 输出格式(Format)

代码语言:javascript
复制
测试用例必须包含:用例ID、前置条件、操作步骤、预期结果、优先级
格式:Markdown 表格

Rules 的层次:

  • 全局 Rules:对所有任务生效(如安全约束、输出语言)
  • 项目 Rules:特定项目的规范(如代码风格、命名规范)
  • 任务 Rules:单次任务的临时约束(如"这次只考虑移动端")

模块四:落地篇(第11-12期)

AI 的价值在于解决真实问题,创造真实价值

落地篇:AI工程化实践与AI测试

第11期 · AI 工程化实践

Demo 和生产系统的距离有多远? 很多人用 AI API 做了一个酷炫的 Demo,就以为可以直接上线。但 Demo → 生产,这段距离是 10 倍的工程量。工程化实践就是填平这段距离的系统方法。

五大工程化支柱:

1. 可靠性(Reliability)

AI API 调用随时可能失败(网络超时、限流、模型服务抖动)。生产系统必须有完整的容错机制:

代码语言:javascript
复制
# 必备的可靠性模式
重试机制:指数退避,最多3次
熔断器:失败率超阈值时自动停止调用
超时控制:每次调用设置合理超时(如30s)
降级策略:主模型不可用时切换备用模型
2. 可观测性(Observability)

你无法改进你看不到的东西。AI 系统的可观测性包括三个层面:

层面

监控内容

工具

日志

每次请求的 Prompt、响应、耗时、Token 用量

ELK、Loki

指标

成功率、P99 延迟、Token 消耗、费用

Prometheus + Grafana

链路

复杂 Agent 的多步执行链路追踪

LangSmith、Jaeger

评估

回答质量评分(准确性、相关性、安全性)

Ragas、自研评估框架

3. 安全防护(Security)

AI 系统面临独特的安全威胁:

  • Prompt 注入攻击:用户输入恶意指令,试图覆盖系统 Prompt
    • • 防御:输入清洗、输出过滤、沙箱隔离
  • 数据泄露:敏感信息被 AI 泄露给其他用户
    • • 防御:数据脱敏、访问控制、租户隔离
  • 幻觉风险:AI 给出错误信息被用户信任
    • • 防御:RAG 接地气、置信度评估、高风险场景强制人工审核
4. 可扩展性(Scalability)
  • 多模型路由:根据任务类型选择最合适的模型(便宜的任务用小模型,复杂任务用大模型)
  • 流量控制:限流、排队、优先级调度
  • 缓存策略:相似问题命中缓存,减少 API 调用
5. 可维护性(Maintainability)
  • Prompt 版本管理:像代码一样管理 Prompt,支持回滚
  • A/B 测试:对比不同 Prompt 的效果,数据驱动优化
  • 文档化:记录每个 AI 功能的设计决策、已知局限、维护注意事项

上线前 10 条检查清单:

  • •所有 API 调用有重试和超时机制
  • •异常情况有降级方案(不能让用户看到报错)
  • •敏感信息已脱敏(不把用户数据发给 AI)
  • •Prompt 注入防护已到位
  • •关键指标已接入监控
  • •费用上限已设置(防止异常消耗)
  • •回答质量评估机制已建立
  • •Prompt 版本已纳入版本控制
  • •高风险操作有人工审核流程
  • •压测通过,确认并发下系统稳定

第12期 · AI + 测试

AI 如何改变软件测试? 传统测试面临根本矛盾:需求越来越多、迭代越来越快,但测试资源始终有限。AI 的出现,让这个矛盾有了全新的解法——让 AI 承担 60% 的重复性测试工作,让人专注于高价值的探索性测试

AI 测试的四大核心能力:

1. 智能用例生成

只需提供需求文档或代码,AI 自动生成覆盖三类场景的测试用例:

用例类型

覆盖重点

人工遗漏率

正常流程

标准输入下的核心功能

边界条件

最大值、最小值、临界值

高(最容易漏)

异常场景

网络超时、并发冲突、非法输入

极高

效率对比:人工编写 1天/50条 → AI 生成 5分钟/500条,效率提升 10 倍

2. 智能执行与自愈

传统自动化测试最大痛点是维护成本高——UI 改了一个按钮位置,几十个脚本全部失效。AI 驱动的智能执行:

  • 视觉定位:不依赖 XPath/ID,通过视觉特征识别元素
  • 自愈能力:执行失败时自动尝试备选策略,记录修复方案
  • 并行加速:智能分析用例依赖关系,自动编排并行执行
3. 缺陷预测

AI 分析代码提交记录、历史缺陷数据、代码复杂度,预测哪些模块最可能出现缺陷,引导测试资源优先覆盖高风险区域:

代码语言:javascript
复制
高风险因素:
- 高频变更模块(Git 提交频率高)
- 历史缺陷集中区(Bug 热点)
- 高圈复杂度代码
- 新增依赖关系影响范围
4. 智能分析与报告
  • • AI 自动分类缺陷(新增/回归/环境问题)
  • • 识别根因,给出修复建议
  • • 生成可读性强的质量报告,一键汇报

AI 测试落地四步法:

代码语言:javascript
复制
第一步(第1-2周):AI 辅助用例生成
  → 选一个核心模块,AI 生成初版,人工审核补充

第二步(第3-4周):接入自动化执行
  → 转换为自动化脚本,接入 CI/CD,每次提交自动触发

第三步(第5-6周):智能分析与报告
  → AI 分析测试结果,自动生成缺陷报告

第四步(持续进行):持续学习优化
  → 基于历史数据训练,缺陷预测准确率持续提升

总结:AI Agent 全景图

这 12 期内容,共同构成了一个完整的 AI 知识体系

AI Agent 全景图

全景图解读

代码语言:javascript
复制
┌─────────────────────────────────────────────────────┐
│                    🌟 应用层                          │
│  AI智能员工 · AI测试工程师 · AI产品经理 · 各类垂直Agent │
└─────────────────────────────────────────────────────┘
                          ↑
┌─────────────────────────────────────────────────────┐
│              ⚡ Agent 核心(执行引擎)                  │
│   感知(Prompt) → 推理(LLM) → 行动(工具调用)        │
└─────────────────────────────────────────────────────┘
          ↑                               ↑
┌──────────────────┐           ┌──────────────────────┐
│  🔧 MCP 工具层    │           │  🎯 Skills 技能层      │
│  数据库/API/文件  │           │  代码/文档/分析/生图    │
└──────────────────┘           └──────────────────────┘
          ↑                               ↑
┌─────────────────────────────────────────────────────┐
│              📋 Rules 规范层(行为边界)                │
│    角色定义 · 行为约束 · 工作流程 · 输出格式             │
└─────────────────────────────────────────────────────┘
                          ↑
┌─────────────────────────────────────────────────────┐
│                 🗄️ 知识层(记忆体系)                   │
│   Embedding → 向量数据库 → RAG检索 → 知识库工程         │
└─────────────────────────────────────────────────────┘
                          ↑
┌─────────────────────────────────────────────────────┐
│                 🧠 基础层(认知基础)                   │
│    LLM大模型 · Prompt工程 · 幻觉治理 · 工程化实践        │
└─────────────────────────────────────────────────────┘

核心串联逻辑

层次

对应期数

核心作用

🧠 基础层

第01-03期

理解 AI 的本质:LLM 是什么,怎么说话,有什么局限

🗄️ 知识层

第04-06期

给 AI 装上记忆:向量化、检索、知识库工程

⚡ 执行层

第07-10期

让 AI 能干活:Agent 框架、工具协议、技能封装、行为规范

🚀 落地层

第11-12期

让 AI 创造价值:工程化实践、AI 测试落地

给不同角色的建议

🧑‍💻 开发工程师 重点掌握:MCP 协议(工具集成)+ RAG(知识库构建)+ AI 工程化实践(可靠性/可观测性) 实践路径:先用 GitHub Copilot 提效,再探索 AI Agent 自动化流程

📊 产品经理 重点掌握:LLM 基础认知 + Prompt 工程 + Agent 能力边界 实践路径:用 AI 辅助需求分析、竞品调研、PRD 写作

🧪 测试工程师 重点掌握:AI 测试四大能力 + 工具选型 + 落地四步法 实践路径:从 AI 辅助用例生成开始,逐步引入智能执行和缺陷预测

🎨 设计师/运营 重点掌握:Prompt 工程 + AI 工具使用 + 幻觉识别 实践路径:用 AI 辅助创意生成、内容创作,建立 AI 辅助工作流


写在最后

这 12 期内容,覆盖了 AI 知识体系从理论到实践的完整路径。但 AI 技术演进极快,这些知识只是入门地图,而非终点。

最重要的认知:

AI 不会替代人,但会用 AI 的人会替代不会用 AI 的人。 AI 的价值不在于它有多聪明,而在于你能让它解决多少真实问题。

持续学习的建议:

  1. 1. 动手实践:每个知识点都有对应的工具,不要只看不做
  2. 2. 关注原理:技术会变,原理不变。理解"为什么"比记住"怎么做"更重要
  3. 3. 构建体系:把零散的知识点串联成体系,形成自己的 AI 工具箱
  4. 4. 分享传播:把学到的东西教给别人,是最好的学习方式

本文是「每日AI知识点」系列第01-12期的完整总结。 系列涵盖:LLM · Prompt · AI幻觉 · Embedding · RAG · 知识库 · Agent · MCP · Skills · Rules · AI工程化 · AI测试

如果觉得文章对你有帮助,欢迎一键三连(点赞、收藏、转发)~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 巫山老妖 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • AI 知识体系全景:从大脑到智能员工
    • 核心公式
    • 模块一:认知篇(第01-03期)
      • 第01期 · LLM 大语言模型
      • 第02期 · Prompt 提示词工程
      • 第03期 · AI 幻觉与可信度
    • 模块二:记忆篇(第04-06期)
      • 第04期 · Embedding 向量化
      • 第05期 · RAG 检索增强生成
      • 第06期 · 知识库工程实践
    • 模块三:执行篇(第07-10期)
      • 第07期 · AI Agent 智能体
      • 第08期 · MCP 协议
      • 第09期 · AI Skills 技能体系
      • 第10期 · AI Rules 行为规范
    • 模块四:落地篇(第11-12期)
      • 第11期 · AI 工程化实践
      • 第12期 · AI + 测试
    • 总结:AI Agent 全景图
      • 全景图解读
      • 核心串联逻辑
      • 给不同角色的建议
    • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档