首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

系统架构设计师:大数据架构设计理论与实践--某电商智能决策大数据系统

1.系统建设背景

作为行业领先的外卖平台,某电商在云计算、大数据以及算法平台做了许多创新性的工作。某电商外卖平台接入了众多商家,如何根据用户实时的点击、出价以及广告的曝光,商家实时的出价数据,计算出合适的报价数据和算法的决策参数,使得广告主的利益最大化,是一个关键的问题。某电商外卖依托大数据平台强大的数据处理、分析能力,创新打造了基于Kappa架构的智能决策大数据系统。平台集业务实时监控、实时计算,故障快速定位与预警于一体,可支持自动化分析当前实时流数据,实时计算并更新算法模型,并且支持多种算法框架和故障快速恢复等功能。

2.数据需求与场景

传统的参数和模型计算均是依赖于人工调参,模型计算也大多采用离线计算的模式。为了提升算法的迭代速度和模型的更新速度,某电商打造了基于Kappa架构的智能决策大数据系统。该系统集中于三大核心功能:实时数据的处理、参数计算和迭代、参数本地存储。实时数据的处理主要用来处理用户对广告的点击、下单以及广告商的出价和广告的曝光等数据。根据业务的需求,大数据系统基于F1ink计算集群,过滤需要用于计算的字段,并且根据指定的时间段,聚合指定时间窗口的数据,计算完成后,将结果数据存入到Tair分布式缓存中,供决策服务使用。

参数计算和迭代,这个过程主要在决策服务的服务端中完成,决策服务引入了多种算法框架,可根据不同业务工程的需求,计算生成特定的决策参数和模型。主要过程如下,首先从Tair读出之前的参数,以及上个阶段计算得到的数据,在之前参数的基础上进行计算得到最新的决策参数和模型,并且将新的参数存储到Tair 中,记录日志到Hive。参数本地存储,该过程发生在决策服务的客户端,业务方系统需要引入决策服务的客户端工程,当决策服务计算出新的决策参数时,会通过Zookeeper通知客户端,客户端得到通知后,会从服务端拉取最新参数并进行本地存储,并且提供相应接口供业务方系统使用。

3.系统架构

实时智能决策大数据平台基于Kappa架构,使用统一的数据处理引擎Flink可实时处理流数据,并将其存储到Hive与Tair中,以供后续决策服务的使用。实时处理的过程如下:

一是数据采集,即B端系统会实时收集用户的点击,下单以及广告的曝光和出价数据并输出到Kafka缓存。

二是数据的清洗与聚合,即基于大数据计算集群Flink计算框架,实时读取Kafka中的实时流数据,过滤出需要参与计算的字段,根据业务需求,聚合指定时间端的数据并转换成指标。

三是数据存储,即将Flink计算得到数据存储到Hive 日志库中,需要参与模型计算计算的字段存储到Tair分布式缓存中。当需要进行模型计算时,决策服务会从Tair 中读取数据,进行模型的计算,得到新的决策参数和模型。决策服务基于微服务架构,客户端部署在业务方系统中,服务端主要用于计算决策参数和模型,当服务端计算得到新的参数,此时会通过Zookeeper通知部署到业务方系统的客户端,客户端此时会拉取新的参数并存储到本地,并且客户端提供了获取参数的接口,业务方可以无感知调用。智能决策大数据平台技术架构如图19-16所示。

4.应用效果

是计算结果的准确性方面,由于之前的数据集采用的离线词表的方式,当天计算参数所使用的数据集是前一天产生的数据集,因此数据只能用于T+1的参数计算中,当天产生的数据无法实时的参与计算,应用基于Kappa架构实时处理框架,能够将B端产生的实时流数据用于决策服务中,极大地提升了参数和模型计算的准确性。二是业务方系统响应的及时性,由于参数计算在服务端完成,服务端计算完成后会通过Zookeeper通知客户端,客户端会拉取最新参数存储的到本地,业务方系统中会引入客户端,因此当业务方系统使用最新的参数,只需从本地获取即可,不会产生任何网络延迟,响应速度快。

整理不易动动你发财的小手点个“在看”哦!

您的支持是我坚持的动力,谢谢

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OeeP1wH9YgvnCrVMvFDi_9fA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券