作者简介
叶莎妮,来自腾讯云元宝 AI 搜索团队。
一、搜索的前世今生
ChatGPT 出现前,搜索长期是关键词匹配 + 链接列表的信息检索工具,用户需自行处理信息。虽然在 2018 年,Google 的 BERT 模型推动搜索进入了语义阶段,但交互方式仍未改变。
ChatGPT 掀起大语言模型浪潮后,RAG 技术成熟使搜索从信息检索迈向任务解决型智能产品,更贴合用户自然语言需求。未来,随着更多垂类知识接入、多模态融合及交互升级,搜索将成为 AI 时代像水电煤一样的认知基础设施,拥有极具想象力的未来。
二、大模型和搜索的关系
大模型和搜索对彼此的影响
搜索这项诞生超 30 年的互联网“古典技术”,在 AI 时代仍旧是兵家必争之地。这是因为大模型与搜索能力有着互补、双向进化的紧密关联。
大模型需要搜索作为知识引擎,来补充实时与长尾知识、打破静态边界,链接垂直知识库、减少 “幻觉”;经过多轮调用深化推理,如今搜索已是大模型落地标配。而大模型则赋予搜索 “新大脑”,推动搜索从链接列表加人工筛选,升级为 AI 自动生成精准答案,更带动架构向生成式演进,实现算法全链路重构。
大模型和搜索结合的实践案例
基于混元 T1 模型,结合内部多生态检索增强与先进 Agent 架构,搭建的 AI 搜索已应用于腾讯元宝、QQ 浏览器等 700 多个内部产品场景,复杂需求下可启动多轮反思机制。
在复杂需求场景,构建 DeepSearch 服务,例如针对高考这类复杂场景,我们推出了 AI 高考通。以往搜索引擎难以满足志愿填报的个性化与完整性需求,而依托Agentic RAG 技术的 DeepSearch,能通过“规划-搜索-阅读-反思”循环,调用数十个专业工具,自动生成个性化报考方案并提供决策指引。
AI 高考通,能做到志愿分析报告准确率 95%+,并生成数百万份志愿表。
高考相关需求的技术方案
三、关键技术挑战
搜索技术架构跃迁
搜索技术架构经历了从传统 Retrieval 到 RAG 再到 Agentic RAG 三个阶段的演进。
传统 Retrieval 是静态检索流程,包括检索词处理解析、多内容源召回、多轮次混合排序等,本质是关键词检索逻辑,解决 “信息过载” 问题,满足相关性、权威性等基础需求。
到了 RAG 阶段,是基于大模型决策能力的动态反应式流程,突破点在于 “理解意图”。RAG 阶段,大模型通过 Function Calling 实现股票、天气等场景化服务接入,生成式排序实现多目标排序,为用户输出大模型总结的答案。如前面介绍的混元 T1+RAG 实现的 AI 搜索,已积累大量应用场景,每日服务上亿次用户需求。
而到了 Agentic RAG 阶段,本质是 “认知闭环”,即采用多 Agent 协作架构,Planning 实现任务拆解,Reflection 实现动态调优,增加了强化学习、多轮反馈机制、Agent 灵活接入,实现了从单一流程到多智能体协同。搜索自此走向 “问题解决型智能体”,实现了复杂需求下的 DeepSearch。
静态检索流程升级为智能体协同的动态架构
主要技术挑战和解法
搜索算法从需求理解、索引召回、精排混排、检索系统进行了全链路重构。
在需求理解上,传统搜索主要是分词、意图、纠错,而 AI 搜索下,用户 prompt 更复杂,贴近自然语言,需要理解上下文、拆解复杂需求、转化为适合检索的 query,这依赖领域知识精调和基于检索效果的强化学习。
索引召回方面,传统搜索提供 doc 粒度的候选结果,依赖 query、title、doc 主体内容的匹配,粒度较粗,对于知识密度高的内容信息利用不足。现在面向大模型,需要精准的信息片段,因此进行了 chunk 级别索引,实现语义粒度的索引,提升检索精度,搭配大模型的总结能力生成优质回答、进行多源信息校验,降低模型幻觉。
生成式精排方面,之前是 bert-based 模型,需要丰富的人工特征工程,因模型参数小、表征能力差,单维度分别建模;而在 AI 搜索时代,更大尺寸的生成式模型可端到端针对最终结果的满意度做综合排序,表征能力更强,能多目标一起建模,实现多目标连续生成和统一排序。
检索系统随着技术演进从 RAG 走向 Agentic RAG,利用任务规划能力、工具调用能力、反思校验能力等关键能力,提升了复杂问题解决能力。
搜索算法全面拥抱 LLM 的变化
Query Planning 通过拆解 query 和上下文补全,能够实现用户 prompt 到搜索 query 的规划。比如,当用户询问 “烟台大黑山岛,这个景点有什么特色?周边有哪些经济酒店?玩下来需要多少天”时,它可以将这个问题拆解为三个 query 来查询;而在上下文补全方面,当前序 prompt 是 “可以给我一些备跑北马的建议吗?”,新一轮 prompt 为 “每年什么时候举办?”时,planner 会自动将 query 改写补全为 “北京马拉松举办时间,北京马拉松日期安排” 等。
其算法实现采用两阶段的 LLM 改写机制:第一阶段根据标注数据进行 SFT 任务,结合先验知识学习意图拆解;第二阶段引入最终搜索后的效果反馈进行强化学习,使拆解后的检索结果更满足用户需求。同时,通过多轮并行训练提升了训练效率和多轮对话的理解能力,大幅提升搜索满意度。
基于 LLM 的查询改写两阶段
为灵活接入外部优质 API,给元宝提供高质量高时效性输入,我们开发了插件系统。相当于在传统搜索中接入合作 CP 的结构化数据,核心目标不变,但能力上有关键不同:从静态数据接入到动态理解,执行机制从固定召回到多插件智能体协同,扩展从定制开发到即插即用,插件系统将数据从 “资源” 升级为 “智能体协作网络中的敏捷生产力”。
插件系统的整体方案包括:
对于插件过多的难点(即全量插件占用 tokens 超过 1w,影响预测效果和推理速度),我们的解决方案是增加插件召排环节,为每个插件建立多个向量,选取与用户输入最高相关度进行排序,向量模型上对目前主流多个 emb 模型进行测试,平衡召回率及速度。
针对样本构建成本高的难点(即因为插件槽位复杂,需要大量样本覆盖),我们的解决方案是设计样本自动构建系统,产品基于设计的插件,给出几十个种子 prompt 或种子槽位结果,经双向泛化及质量控制环节,构建出约 20 倍的 FC 模型高精度训练样本。
Function Calling的插件管理
Query planning 实现意图理解并转为检索系统适配的任务系列后,多目标排序环节需要找到解决这些任务的内容集合。
具体技术方法包含四个关键步骤:
1. Continued Pre-training(搜索持续预训练):采用多种任务形式的搜索语料持续训练,优化大模型的领域适配效果;
2. 大规模监督生成式学习:采用纯生成式方案进行大规模下游任务训练,并采用细粒度的打分 GenFR 对生成式模型进行约束;
3. 生成式模型蒸馏:对生成式 teacher ( 13B/30B/70B) 进行蒸馏,将能力迁移到尺寸相对较小的 LLM student (0.5B) 上以满足推理性能;
4. 多目标能力拟合:多目标排序时采用 4 个目标连续生成的方案,先后生成相关性、权威性、时效性、需求满足,最后多个目标加权得到最终得分。
这些环节对应了 AI 搜索从基础能力建设到线上落地的全流程。
多目标排序环节全流程
当用户查询需要多轮交互才能解决的复杂问题,传统 RAG 的单次检索机制难免力不从心。要解决这个问题,得从两方面进行优化,一方面是从需求的复杂度维度出发,需要强化学习对多轮决策的优化;另一方面则是从结果的可靠性维度考虑,聚焦奖励机制设计、减少幻觉,从而得到更好的答案。
为此,我们在技术方案上增加了两个循环:
“检索-总结-思考”的循环
搜索算法的加速演进将聚焦提升四项能力:
搜索算法加速演进方向
五、效果收益
2025 年是大模型与联网搜索互促发展的元年。我们将腾讯内部的检索增强能力封装为搜索 API 对外服务。产品名称“联网搜索 API”,目前已服务 15 个高增长行业,支撑智能问答、自动驾驶、教育、办公、金融等 100 多个 AI 场景,助力企业提升效率与体验、实现 AI 时代战略升级。
2025 年上半年,随大模型技术普及,联网搜索 API 也迎来爆发趋势:客户数环比增 269%,搜索调用量同比飙升 315%,典型应用覆盖大模型、汽车、办公、电商、教育、金融等多领域场景。
腾讯"联网搜索 API"的推出,不仅降低了企业接入高质量搜索能力的门槛,更通过灵活的接口设计,满足不同行业的定制化需求。未来,腾讯将持续优化检索技术,拓展更多垂直场景,与合作伙伴共同推动 AI 生态的繁荣发展。