腾讯元宝搜索实践：大模型时代，AI 如何让搜索焕发新生

TVP官方团队

发布于 2025-08-20 08:40:35

9530

文章被收录于专栏：腾讯云TVP腾讯云TVP

导语 | 近年来，随着大模型技术的迅猛发展，搜索领域正经历从传统信息检索向智能问题解决的深刻变革，检索增强生成（RAG）、多智能体协同架构成为技术突破的关键方向。然而，如何实现搜索架构的动态升级与全链路算法重构，以适配复杂场景下的用户需求，仍是行业亟待解决的重要课题。

本文特邀腾讯云元宝 AI 搜索团队的叶莎妮老师，和大家探讨在大模型颠覆知识生成模式的当下，为何我们仍注重搜索以及搜索如何在大模型时代焕发新生。

作者简介

叶莎妮，来自腾讯云元宝 AI 搜索团队。

一、搜索的前世今生

ChatGPT 出现前，搜索长期是关键词匹配 + 链接列表的信息检索工具，用户需自行处理信息。虽然在 2018 年，Google 的 BERT 模型推动搜索进入了语义阶段，但交互方式仍未改变。

ChatGPT 掀起大语言模型浪潮后，RAG 技术成熟使搜索从信息检索迈向任务解决型智能产品，更贴合用户自然语言需求。未来，随着更多垂类知识接入、多模态融合及交互升级，搜索将成为 AI 时代像水电煤一样的认知基础设施，拥有极具想象力的未来。

二、大模型和搜索的关系

大模型和搜索对彼此的影响

搜索这项诞生超 30 年的互联网“古典技术”，在 AI 时代仍旧是兵家必争之地。这是因为大模型与搜索能力有着互补、双向进化的紧密关联。

大模型需要搜索作为知识引擎，来补充实时与长尾知识、打破静态边界，链接垂直知识库、减少 “幻觉”；经过多轮调用深化推理，如今搜索已是大模型落地标配。而大模型则赋予搜索 “新大脑”，推动搜索从链接列表加人工筛选，升级为 AI 自动生成精准答案，更带动架构向生成式演进，实现算法全链路重构。

大模型和搜索结合的实践案例

基于混元 T1 模型，结合内部多生态检索增强与先进 Agent 架构，搭建的 AI 搜索已应用于腾讯元宝、QQ 浏览器等 700 多个内部产品场景，复杂需求下可启动多轮反思机制。

在复杂需求场景，构建 DeepSearch 服务，例如针对高考这类复杂场景，我们推出了 AI 高考通。以往搜索引擎难以满足志愿填报的个性化与完整性需求，而依托Agentic RAG 技术的 DeepSearch，能通过“规划-搜索-阅读-反思”循环，调用数十个专业工具，自动生成个性化报考方案并提供决策指引。

AI 高考通，能做到志愿分析报告准确率 95%+，并生成数百万份志愿表。

高考相关需求的技术方案

三、关键技术挑战

搜索技术架构跃迁

搜索技术架构经历了从传统 Retrieval 到 RAG 再到 Agentic RAG 三个阶段的演进。

传统 Retrieval 是静态检索流程，包括检索词处理解析、多内容源召回、多轮次混合排序等，本质是关键词检索逻辑，解决 “信息过载” 问题，满足相关性、权威性等基础需求。

到了 RAG 阶段，是基于大模型决策能力的动态反应式流程，突破点在于 “理解意图”。RAG 阶段，大模型通过 Function Calling 实现股票、天气等场景化服务接入，生成式排序实现多目标排序，为用户输出大模型总结的答案。如前面介绍的混元 T1+RAG 实现的 AI 搜索，已积累大量应用场景，每日服务上亿次用户需求。

而到了 Agentic RAG 阶段，本质是 “认知闭环”，即采用多 Agent 协作架构，Planning 实现任务拆解，Reflection 实现动态调优，增加了强化学习、多轮反馈机制、Agent 灵活接入，实现了从单一流程到多智能体协同。搜索自此走向 “问题解决型智能体”，实现了复杂需求下的 DeepSearch。

静态检索流程升级为智能体协同的动态架构

主要技术挑战和解法

搜索算法从需求理解、索引召回、精排混排、检索系统进行了全链路重构。

在需求理解上，传统搜索主要是分词、意图、纠错，而 AI 搜索下，用户 prompt 更复杂，贴近自然语言，需要理解上下文、拆解复杂需求、转化为适合检索的 query，这依赖领域知识精调和基于检索效果的强化学习。

索引召回方面，传统搜索提供 doc 粒度的候选结果，依赖 query、title、doc 主体内容的匹配，粒度较粗，对于知识密度高的内容信息利用不足。现在面向大模型，需要精准的信息片段，因此进行了 chunk 级别索引，实现语义粒度的索引，提升检索精度，搭配大模型的总结能力生成优质回答、进行多源信息校验，降低模型幻觉。

生成式精排方面，之前是 bert-based 模型，需要丰富的人工特征工程，因模型参数小、表征能力差，单维度分别建模；而在 AI 搜索时代，更大尺寸的生成式模型可端到端针对最终结果的满意度做综合排序，表征能力更强，能多目标一起建模，实现多目标连续生成和统一排序。

检索系统随着技术演进从 RAG 走向 Agentic RAG，利用任务规划能力、工具调用能力、反思校验能力等关键能力，提升了复杂问题解决能力。

搜索算法全面拥抱 LLM 的变化

Query Planning

Query Planning 通过拆解 query 和上下文补全，能够实现用户 prompt 到搜索 query 的规划。比如，当用户询问 “烟台大黑山岛，这个景点有什么特色？周边有哪些经济酒店？玩下来需要多少天”时，它可以将这个问题拆解为三个 query 来查询；而在上下文补全方面，当前序 prompt 是 “可以给我一些备跑北马的建议吗？”，新一轮 prompt 为 “每年什么时候举办？”时，planner 会自动将 query 改写补全为 “北京马拉松举办时间，北京马拉松日期安排” 等。

其算法实现采用两阶段的 LLM 改写机制：第一阶段根据标注数据进行 SFT 任务，结合先验知识学习意图拆解；第二阶段引入最终搜索后的效果反馈进行强化学习，使拆解后的检索结果更满足用户需求。同时，通过多轮并行训练提升了训练效率和多轮对话的理解能力，大幅提升搜索满意度。

基于 LLM 的查询改写两阶段

Function Calling

为灵活接入外部优质 API，给元宝提供高质量高时效性输入，我们开发了插件系统。相当于在传统搜索中接入合作 CP 的结构化数据，核心目标不变，但能力上有关键不同：从静态数据接入到动态理解，执行机制从固定召回到多插件智能体协同，扩展从定制开发到即插即用，插件系统将数据从 “资源” 升级为 “智能体协作网络中的敏捷生产力”。

插件系统的整体方案包括：

插件召排，基于用户输入改写后的 query，以向量方式召回 k 个插件，再基于 rank 模型简化召回插件列表，输出 top n，保证召回率 100%；
外部知识引入，为 Function Calling 模型提供节假日等外部知识，提升槽位抽取精度，降低模型幻觉；
Function Calling，基于输入候选插件及外部知识，对用户改写 query 抽取出需要调用的 API 及槽位；
API 调用，将插件结果按照规则映射到 API 请求，获取 api 结果；
质量控制，部分插件偏向于检索，增加相关度过滤提升精度。

对于插件过多的难点（即全量插件占用 tokens 超过 1w，影响预测效果和推理速度），我们的解决方案是增加插件召排环节，为每个插件建立多个向量，选取与用户输入最高相关度进行排序，向量模型上对目前主流多个 emb 模型进行测试，平衡召回率及速度。

针对样本构建成本高的难点（即因为插件槽位复杂，需要大量样本覆盖），我们的解决方案是设计样本自动构建系统，产品基于设计的插件，给出几十个种子 prompt 或种子槽位结果，经双向泛化及质量控制环节，构建出约 20 倍的 FC 模型高精度训练样本。

Function Calling的插件管理

LLM Ranking

Query planning 实现意图理解并转为检索系统适配的任务系列后，多目标排序环节需要找到解决这些任务的内容集合。

具体技术方法包含四个关键步骤：

1. Continued Pre-training（搜索持续预训练）：采用多种任务形式的搜索语料持续训练，优化大模型的领域适配效果；

2. 大规模监督生成式学习：采用纯生成式方案进行大规模下游任务训练，并采用细粒度的打分 GenFR 对生成式模型进行约束；

3. 生成式模型蒸馏：对生成式 teacher ( 13B/30B/70B) 进行蒸馏，将能力迁移到尺寸相对较小的 LLM student (0.5B) 上以满足推理性能；

4. 多目标能力拟合：多目标排序时采用 4 个目标连续生成的方案，先后生成相关性、权威性、时效性、需求满足，最后多个目标加权得到最终得分。

这些环节对应了 AI 搜索从基础能力建设到线上落地的全流程。

多目标排序环节全流程

RAG Task Alignment with RL

当用户查询需要多轮交互才能解决的复杂问题，传统 RAG 的单次检索机制难免力不从心。要解决这个问题，得从两方面进行优化，一方面是从需求的复杂度维度出发，需要强化学习对多轮决策的优化；另一方面则是从结果的可靠性维度考虑，聚焦奖励机制设计、减少幻觉，从而得到更好的答案。

为此，我们在技术方案上增加了两个循环：

通过强化学习，让答案好坏影响排序，让排序结构影响 planing，实现端到端的效果优化。RL-Based Planner 利用检索排序效果反馈学习，query 拆解引入搜索满意信号，优化 subq 拆解，使 query 拆解任务下的搜索满意度提升；
RL-Based Retriever 利用 Answer 效果反馈学习，基于 LLM 对 Query / SearchDocs 的后验满意度信号、Answer 的正确性、Answer 中对 SearchDocs 的引用等信号计算 reward，通过 RL 对齐到 retrieval 阶段的 ranking 或者 embedding model。

“检索-总结-思考”的循环

四、搜索算法加速演讲方向

搜索算法的加速演进将聚焦提升四项能力：

提升任务规划能力：从 Query Planning 升级到 Task Planning，更有逻辑地拆解任务，增强搜索和工具调用规划；
提升排序推理能力：利用强化学习增强基于 LLM 排序模型的推理能力，进一步提升排序效果；
提升复杂问题解决能力：增强模型规划搜索、阅读、反思、重新规划的能力，提升系统对复杂问题的解决能力；
提升总结鲁棒性：利用强化学习进一步提升模型的鲁棒性、多文档信息整合能力，使模型更擅长筛选时效内容、引用权威来源作答；同时实现多模态检索增强，更充分地利用图片、视频等内容补充信息。