首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >生成式AI购物助手技术架构解析

生成式AI购物助手技术架构解析

原创
作者头像
用户11764306
发布2025-08-29 16:41:55
发布2025-08-29 16:41:55
980
举报

某中心生成式AI购物助手Rufus的技术架构

定制化大语言模型构建

与大多数基于通用数据集训练后再进行领域定制的大语言模型不同,该项目从初始阶段就专注于使用购物数据进行训练。训练数据涵盖整个商品目录、用户评论以及社区问答内容,科学家团队通过精心策划不同数据源对模型训练的贡献比例,构建了专门针对购物场景的定制化大语言模型。

在数据准备阶段,采用某云服务的大数据平台进行大规模分布式数据处理,并使用领先的云存储解决方案进行数据存储。这些服务为构建定制模型提供了安全可靠的基础架构支撑。

检索增强生成技术应用

为应对用户可能提出的各种问题,系统需要能够超越训练数据范围,利用未见过的信息进行回答。这就是检索增强生成(RAG)技术发挥关键作用的地方:在生成回复前,大语言模型会首先选择可能有助于回答用户问题的相关信息。

系统从多个可靠来源获取信息,包括用户评论、商品目录、社区问答内容,并调用相关商店API。该RAG流程的独特性在于数据源的多样性以及根据不同问题类型各数据源相关性的差异化处理。

基于强化学习的持续优化

每个大语言模型和生成式AI应用都是一个持续演进的过程。为了让系统能够随时间推移变得更加有用,需要学习哪些回复是有效的,哪些需要改进。通过强化学习过程,用户反馈成为最佳的学习来源。系统鼓励用户提供反馈,标注对回答的喜好程度。随着时间的推移,系统从用户反馈中学习并改进回复质量,生成更有助于购物的答案。

高性能AI芯片实现低延迟高吞吐量

系统需要能够同时服务数百万用户而没有任何明显延迟。这对计算密集型的生成式AI应用而言尤其具有挑战性,特别是在大规模应用场景下。

为最大限度降低延迟同时提高吞吐量,采用了自主研发的AI芯片,这些芯片与核心云服务深度集成。通过与编译器团队合作实施优化措施,提高了模型推理效率,这些优化已向所有云服务客户开放。选择自研AI芯片使团队能够快速迭代、大规模部署并满足用户需求。

然而,对于大语言模型而言,传统的批量请求处理方法仍可能影响吞吐量和延迟。这是因为难以预测模型在组织回复时会生成多少个文本单元(token)。科学家团队与云服务合作实现了连续批处理技术,这是一种新颖的大语言模型推理专用技术,能够在每个token生成后为新请求做出路由决策。这使得模型能够在批次中第一个请求完成后立即开始服务新请求,而不需要等待所有请求完成,从而让用户更快获得答案。

流式架构设计

系统需要为不同问题提供最相关和最有用的答案形式,有时是长文本回复,有时是短文本,或者是可点击的链接帮助用户导航商店。

以易于用户理解的方式呈现答案本身存在技术挑战。信息需要遵循逻辑流程,如果分组和格式处理不当,可能导致回复混乱而不够有用。

通过先进的流式架构,系统能够提供自然的用户体验。基于token的端到端流式处理意味着用户无需等待完整答案生成,而是在答案其余部分仍在处理时就能获得第一部分内容。系统通过向内部系统发起查询来填充流式响应(这一过程称为水合作用),并经过训练生成标记指令来指定各种答案元素的显示方式,从而为用户提供独特的使用体验。

尽管某中心使用AI改善用户体验已有超过25年历史,但生成式AI代表了全新的变革力量——无论对平台、用户,还是对能够构建超越想象体验的科学团队而言。通过生成式AI加速创新步伐,相信在未来数月和数年内,这项技术将彻底改变每个用户体验。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 某中心生成式AI购物助手Rufus的技术架构
    • 定制化大语言模型构建
    • 检索增强生成技术应用
    • 基于强化学习的持续优化
    • 高性能AI芯片实现低延迟高吞吐量
    • 流式架构设计
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档