最近AI Agent岗位太火了!
字节、快手、腾讯、Shopee,几乎每家大厂都在招。
很多同学找我吐槽:"面Agent岗根本不知道怎么准备,一会儿问RAG,一会儿问MCP,一会儿又问ReAct框架,完全摸不着头绪!"
别慌!我特意整理了近一个月牛客网上最新的27道AI Agent面试真题,全是字节、快手、腾讯、Shopee等大厂真实考过的,附带详细答案。
认真看完这一篇,面试AI Agent岗,你心里就有底了!
比如我过去辅导过的学员,薪资直接从20多k翻倍到将近50K!
拥抱风口吧,兄弟们!戳这里,了解更多:AI就业陪跑训练营 | 辅导到就业为止!
一、AI Agent基础概念(必问!)
Q1: 请用你自己的话定义 LLM Agent,并说明与单次调用的差异
答案:
LLM Agent是以大语言模型为推理核心,在多轮交互中与外部环境互动,通过规划、记忆和工具调用完成复杂任务的系统。
与单次调用的差异:
- 单次调用:开环生成,一问一答,无法根据反馈调整
- Agent:闭环决策,每步可以依据工具返回更新状态,直到任务完成
追问:若没有外部工具,还能叫Agent吗? 可以称为"弱环境Agent",仍具有对话记忆和推理能力,也可以有内环多步CoT与自我验证。面试中强调是否存在"行动-观察"循环更清晰。
Q2: Agent 和 Prompt Chain 有什么本质区别?
答案:
二者可以结合:链负责稳定流程,Agent负责链内某段的灵活分支。
Q3: ChatBot加上插件是不是就变成Agent了?
答案:
不一定!
- 如果插件调用由固定规则触发(如关键词路由):更像"带工具的Bot"
- 如果由模型在多步推理中自主选择工具与参数,并形成闭环迭代:才真正接近Agent
关键在于是否具备多步自主决策与反馈闭环。
Q4: RAG + Chat 算不算 Agent?
答案:
- 单次检索再回答:偏"增强型Chat"
- 有多轮检索策略(查不到换查询、分解子问题、交叉验证):具备Agent特征
二、Agent架构设计(重点!)
Q5: Agent的记忆一般怎么设计?
答案:
分层设计最常见:
- 工作记忆:当前任务轨迹和关键结论
- 会话记忆:摘要滚动,避免上下文过长
- 长期记忆:向量检索/结构化库存储历史信息
写入要点:
- 区分"事实"与"推断"
- 附带时间戳和来源
- 便于更新和撤销
Q6: 规划和执行要不要拆开两个模型?
答案:
视任务而定:
推荐混合方案:规划用强模型,执行层做确定性校验。
Q7: ReAct框架里三个字母代表什么?解决什么问题?
答案:
ReAct = Reasoning + Acting
工作流程:
- Thought(推理):模型思考下一步做什么
- Action(行动):调用工具执行
- Observation(观察):获取工具返回结果
- 循环:重复直到任务完成
解决的问题: 模型仅"空想"容易偏离事实,通过显式推理+工具反馈把推理锚定在真实环境上。
Q8: Agent结构包含哪些部分?
答案:
典型Agent结构包含:
- LLM核心:推理和决策中心
- 记忆模块:工作记忆、短期记忆、长期记忆
- 规划模块:任务分解、计划制定
- 工具调用层:连接外部工具和API
- 观察/反馈模块:获取环境反馈
- 执行模块:执行具体动作
三、Agent关键技术(高频考点)
Q9: MCP是什么?如果MCP特别多的话要怎么管理?
答案:
MCP(Model Context Protocol):连接AI助手与外部数据源和工具的开放协议。
管理大量MCP的方法:
- 分类和标签:按功能、领域、使用频率分类
- 元数据管理:记录描述、参数、示例
- 检索机制:向量数据库建立索引,按需检索
- 动态加载:不一次性加载全部,按需加载
- 权限控制:按场景控制可用范围
- 使用统计:记录使用频率,优化推荐顺序
Q10: Skills和MCP区别?
答案:
简单说:MCP是"如何连接工具"的协议,Skills是"如何完成任务"的完整能力包。
Q11: Agent是怎么实现上下文记忆的?
答案:
常见实现方式:
- 滚动窗口:保留最近N轮对话直接放入上下文
- 摘要压缩:对历史对话生成摘要,用摘要替代原始对话
- 向量检索:将历史对话向量化存储,当前查询时检索相关历史
- 结构化存储:关键信息用数据库结构化存储(用户偏好、重要事实)
- 分层记忆:工作记忆+会话记忆+长期记忆
Q12: tool层怎么定义的?tool层具体在agent运行时怎么被调用的?
答案:
Tool定义通常包含:
调用流程:
- Agent分析用户需求,决定需要调用的工具
- 生成工具调用的参数(通常是JSON格式)
- 执行工具调用(API调用、本地函数等)
- 获取工具返回结果
- 将结果作为观察(Observation)反馈给Agent
- Agent根据结果决定下一步行动
四、RAG技术(必考!)
Q13: 向量数据库是什么?跟传统数据库有什么区别?做demo用过什么主流向量数据库?
答案:
向量数据库:专门用于存储、索引和检索高维向量的数据库。
与传统数据库的区别:
主流向量数据库:
- Chroma(轻量级,适合本地开发)
- Milvus(生产级,功能强大)
- Pinecone(云服务,易用)
- Weaviate(支持混合搜索)
- Qdrant(Rust实现,性能好)
Q14: 稠密向量与稀疏向量的区别,分别适合处理什么样的搜索需求?
答案:
Q15: 在向量化之前,为什么要对长文档进行切片?如果不切片会有什么后果?
答案:
为什么切片:
- 上下文窗口限制:Embedding模型有最大输入长度限制
- 检索粒度:切片后可以检索最相关的片段,而不是整个文档
- 信息密度:单个片段信息更聚焦,向量质量更高
- 避免信息稀释:太长的文档会让信息在向量中被稀释
不切片的后果:
- 截断丢失信息:超过模型限制的部分会被截断
- 检索不准确:整个文档的向量无法精确匹配具体问题
- 上下文污染:不相关的信息会干扰向量表示
- 效率低下:即使只需要一部分,也要处理整个文档
Q16: 切片时设置重叠区域的作用是什么?这个比例你通常怎么来确定?
答案:
重叠区域的作用:
- 确保上下文连续性,避免信息在切片边界丢失
- 提高相关片段的召回率
比例确定:
- 通常设置为切片大小的10-20%
- 根据具体场景调整:语义连贯性要求高的场景可以适当增大
Q17: 余弦相似度和欧氏距离在衡量文本相似性时,各自的优缺点是什么?
答案:
文本场景选择:
- 通常归一化后用余弦相似度,更关注语义方向而非绝对大小
- 如果向量长度包含重要信息(如置信度),可用欧氏距离
Q18: 向量库检索出的Top-K结果,如果K值设置得过大,对后续的生成质量有哪些负面影响?
答案:
K值过大的问题:
- 信息过载:模型会被不相关信息干扰
- 上下文浪费:占用宝贵的上下文窗口
- 答案漂移:可能引入冲突或矛盾信息
- 效率降低:处理更多内容增加延迟
实践建议:
- 通常K=5-10比较合适
- 可以用Rerank再压缩到K=3-5
- 根据具体场景调优
Q19: 为什么在初筛召回之后,还要加一个Rerank模型?能解决向量搜索哪些局限?
答案:
加Rerank的原因: 向量相似度≠语义相关性
解决的局限:
- 词汇不匹配:向量搜索可能错过语义相似但用词不同的内容
- 粒度不匹配:切片大小可能不完美
- 多跳推理:需要组合多个片段才能回答
- 时效性:向量搜索无法感知时间因素
Q20: 如果文档发生了局部更新,如何通过增量索引来避免全量重新向量化?
答案:
增量索引策略:
- 版本控制:每个文档有版本号,只更新变更版本
- 哈希检查:内容哈希变化时才重新向量化
- 分段更新:只更新变更的切片
- 软删除:旧向量标记删除,后台异步清理
- 定时合并:定期小范围重建索引,避免性能下降
Q21: 在RAG的生成阶段,如何在Prompt中设定边界条件来防止模型在没搜到内容时产生幻觉?
答案:
Prompt边界设定技巧:
- 明确告知检索范围:"仅基于以下参考内容回答"
- 要求引用来源:"每一个结论都要标注对应的参考片段"
- 允许说不知道:"如果参考内容没有相关信息,请说明"
- 提供反例:给出幻觉和正确回答的示例
- 结构化输出:要求先列出证据再给出结论
Q22: 怎样减小幻觉?
答案:
减小幻觉的方法:
- RAG(检索增强生成):检索外部知识,让模型基于检索内容回答
- Prompt工程:明确要求基于提供信息回答,不知道就说不知道
- 设置边界条件:要求引用来源,不确定时表达疑虑
- 事实校验:输出后用工具校验关键信息
- 微调:用高质量、低幻觉的数据微调
- 多轮验证:让模型多次检查自己的输出
- 温度参数调低:降低随机性
- 输出结构化:让模型先列证据再回答
五、项目经验相关(最容易拉开差距!)
Q23: 项目讲解技巧(来自面试复盘)
❌ 错误方式:
- 报菜名式:"我们用了RAG、用了Tool Calling"
- 只讲"系统有什么",不讲"改了什么"
- 用抽象名词:"做了状态管理"
- 只讲结果,不讲过程
✅ 正确方式:
- 讲决策过程:"最开始想用单Agent,后来发现规划、检索和执行全塞在一起之后,链路太长,出错了也不好定位,所以才拆开"
- 讲具体改动:"一开始检索结果直接拼上下文,后来发现召回一多模型就会被带偏,所以又补了一层rerank,把topk从10压到5"
- 用动作替代名词:"因为这个任务是多步执行的,中间结果后面还要继续用,所以把当前任务状态单独存出来,不然某个Tool超时以后很难从中间恢复"
Q24: 针对长短期记忆,讲讲你是如何设计记忆的提取、压缩与冲突更新机制的?
答案:(供参考框架)
提取机制:
- 短期记忆:最近N轮直接使用
- 长期记忆:通过向量检索相关历史
压缩策略:
- 滑动窗口+摘要生成
- 重要性评分:区分事实、结论、闲聊
- 层级化摘要:会话级摘要、日级摘要、周级摘要
冲突更新:
- 新旧冲突时,带时间戳的新信息优先
- 用户明确修正时,标记旧信息为过时
- 保留修改历史,便于回溯
Q25: 如果检测到用户存在极端情绪,你的Agent如何在不中断对话流的前提下进行干预?
答案:(供参考框架)
干预策略:
- 情绪识别层:在理解阶段同时进行情绪分类
- 回复生成层:根据情绪调整回复语气和策略
- 升级机制:严重情绪时建议转人工
- 不中断流:干预融合在回复中,而不是生硬打断
话术示例: "我感受到你现在可能有些着急,让我帮你一步步解决这个问题..."
Q26: ClaudeCode了解吗,跟Codex有什么区别,cc使用有什么技巧,cc为什么这么好用?
答案:
ClaudeCode vs Codex区别:
- ClaudeCode更专注于代码理解和软件工程任务
- 更强的长代码处理能力
- 更好的项目级理解
- 集成了更多开发工具
使用技巧:
- 提供完整的项目上下文
- 明确代码风格要求
- 充分利用Agent能力做项目级重构
六、Agent项目面试重点总结
面试官常考察点:
技术栈重点:
- 大模型基础:Transformer、Attention、Normalization
- 训练方法:SFT、DPO、PPO、GRPO
- RAG技术:向量数据库、检索、Rerank、切片策略
- Agent架构:记忆设计、工具调用、规划、ReAct框架
- MCP/Skills:协议理解、工具管理
- 后端基础:Redis、MySQL、并发、分布式锁
项目面试重点:
- 数据来源、清洗、标注流程
- 技术选型的决策过程(为什么选这个不选那个)
- 遇到的具体问题和解决方案
- 量化指标和成果
- 对幻觉、成本、延迟等实际问题的处理
七、2026年AI Agent岗位面试建议
1. 深入理解基础概念 不仅要知道是什么,还要理解为什么这样设计
2. 准备真实可信的项目经验 讲清楚决策过程、具体改动、遇到的问题
3. 关注前沿动态 了解最新的Agent论文和开源项目
4. 动手实践 最好有实际的项目经验,而不只是停留在理论