Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何建设一个类似神策的平台

如何建设一个类似神策的平台

原创
作者头像
张叔叔讲互联网
发布于 2023-11-05 01:19:46
发布于 2023-11-05 01:19:46
6851
举报

神策数据是国内专业的大数据分析和营销科技服务提供商,目前已为众多商家提供了数据服务。画像平台功能只是神策所有服务模块中的一部分,本节根据神策对外提供的技术资料,按照个人理解描述一个类似神策平台的构建过程。

神策产品介绍

神策数据定位是国内专业的大数据分析和营销科技服务提供商,公司致力于提供如下能力帮助企业实现全流程营销数字化。

神策数据目前提供的产品方案是“两云一台”。神策分析云可以整合广告投放、用户行为、业务经营等多种数据源,覆盖全场景的业务分析与用户洞察,为企业中的不同角色提供实时、多维度的数据分析和智能决策方案。神策营销云是覆盖公域私域、线上线下的全场景的数字化营销平台。神策数据根基平台是面向业务的全端数据基础平台,可以实时采集、治理、存储、查询、展示数据,并搭载数据智能引擎,高效积累数据资产,赋能业务应用场景,助力企业构建扎实的数据根基,实现数字化经营。

除了使用完整的产品方案,神策还提供可以单独购买使用的服务,表9-4中简要介绍了各服务的主要应用场景。

                             表9-4 神策数据相关产品及适用场景

产品名称

主要功能点

应用场景

神策分析

报表(配置数据形成报表)概览(数据看板)分析(事件、留存、漏洞)书签智能预警分析

基于全渠道采集的数据,可以实现各类分析功能,构建分析报表并设置预警信息等。

神策用户画像

用户标签管理用户分群用户群画像

自定义生产标签、基于标签和行为明细圈选人群、人群画像分析。

神策智能运营

运营计划流程画布微信运营内容管理

制定运营计划,实现精准运营

神策智能推荐

物品库栏位(推荐规则)

配置推荐物料和策略,借助算法能力实现智能推荐。

神策AB测试

AB实验

配置AB实验,实验效果分析

神策广告分析

渠道分析渠道追踪

智能广告投放,投后效果分析

神策客景

客户全生命周期分析与运营工具

客户全生命周期管理

主要技术模块

神策的核心功能都直接或者间接依赖从业务侧收集到的各类数据,不同数据的来源不同,但是需要有统一的数据接入层,为了满足不同量级的数据接入需求,接入层需要支持横向扩展;收集到的数据需要按照业务要求经过清洗和整理之后存储起来;为了提供高效的分析功能,数据要配合性能要求写入到合适的查询引擎中;所有功能最终都经由前端展示系统提供给用户使用,用户在页面上的操作转换为查询和分析命令后经由查询引擎执行。综上可知,为了实现一个类似神策的平台,从技术角度主要包含如图9-17所示的五个技术模块:数据采集与接入、ETL处理、存储系统、查询引擎和前端展示系统。本节会分别介绍各模块的主要实现思路以及可以使用的开源技术方案。

图9-24 系统关键技术模块
图9-24 系统关键技术模块
1. 数据采集与接入

数据采集负责汇总各类渠道的业务数据,其中渠道种类可以分为客户端和服务端。客户端主要包括Android、IOS、小程序、HTML5等,数据主要来源客户端埋点,可以通过埋点SDK上报业务数据。服务端主要指服务端数据导入,导入的数据主要包含服务端业务日志,也可以是服务端已存在的业务数据,比如存储在业务数据库MySQL中的数据。

为了统一数据采集的接入方式,可以全部采用HTTP协议写入数据;为了减少数据传输的网络带宽消耗,可以对上传的数据进行压缩。数据最终通过负载均衡器进入服务端,采用负载均衡可以支持横向拓展来适应不同量级的接入数据。收集到的数据最终路由到不同的后端服务器上实现数据落盘,服务器可以使用Nginx,其作为七层负载均衡器适用于解析HTTP协议的数据;数据可以先直接写入本地文件中,一方面可以快速实现数据写入及保存,另一方面可以实现与后续ETL环节的解耦,方便ETL阶段按需处理数据。图9-25展示了数据采集和接入模块的主要流程。

图9-25 数据采集及接入模块
图9-25 数据采集及接入模块

神策已经开源客户端数据采集SDK,在项目中可以直接使用。服务端日志收集也有一些开源工具,如Logstash、FileBeat,其两者都支持HTTP协议传输数据。Logstash基于Java实现,运行于JVM之上,但是运行过程中对于资源的消耗较大;FileBeat基于Go语言实现,占用资源较少。如果需要将业务数据库中已有的数据上传到数据收集服务,可以借助Logstash或者syncer实现。负载均衡已经发展比较成熟,四层负载均衡可以考虑使用LVS,七层负载均衡可以使用Nginx或者HAProxy,也可以使用负载均衡云服务来实现,比如阿里云SLB、腾讯云CLB以及AWS ELB。

2. ETL处理

采集到的数据经由Nginx写入本地文件之后,需要对数据进行解析与加工。数据解析首先要将数据解压为原始的业务数据,然后校验数据内容是否合法、丢弃异常数据等。数据解析过程中可以监控数据质量,当出现大量异常数据时可以及时报警并进行处理。为了支持用户二次开发,数据解析与加工模块可以提供用户自定义插件功能,当用户对数据加工有特殊需求时可以通过插件进行干预。ID-Mapping也可以在本环节实现,用户传入的每一条数据中都包含UserId或者DeviceId等,为了实现全局ID唯一,可以将原始ID转换为统一的ID后传递到后续环节。

经由数据解析和加工后的数据可以写入消息队列供后续环节进行消费。为什么不能直接进行数据写入?主要有两点考虑:一是数据写入消息队列后,所有相关方都可以消费消息来满足不同业务需求;二是实现了业务解耦和数据流量削峰,后续数据写入模块可以自行扩缩容满足写入性能要求。图9-26展示了ETL数据处理模块的主要流程。

图9-26 ETL处理模块
图9-26 ETL处理模块

为了能够感知本地文件的变更,可以基于JNotify和WatchDog实现,其中JNotify基于Java语言实现,WatchDog基于Python语言实现,两者在业界使用都比较广泛。图9-26中显示的消息队列是Kafka,其比较适用于大规模数据处理,其他开源消息队列还包括RabbitMQ、RocketMQ等。

3. 存储系统

经由数据解析与加工后的数据最终通过数据写入模块被写入存储系统中,最常见的大数据存储方式为HDFS文件或者Hive表;部分业务场景下为了加速查询及分析速度,可以借助一些高效的分析引擎实现,比如本书提到的ClickHouse。数据写入模块可以借助Flink来实现,首先需要消费上游处理好的数据,然后使用Hadoop提供的接口实现数据写入(ClickHouse也支持通过接口的形式写入数据)。目前业界各类存储引擎也比较多,需要根据数据特点和业务需求进行选择。图9-27展示了存储系统模块的主要流程。

图9-27 存储系统
图9-27 存储系统
4. 查询引擎

如图9-28所示,所有功能请求最终都会转化为数据执行任务,数据执行任务通过SQL语句的形式进行表达,最终借助查询引擎从Hive或者ClickHouse中找到满足条件的数据。为了提高计算速度,可以优先使用ClickHouse计算,计算失败或者异常后可以通过Hive进行兜底计算。由于Hive和ClickHouse的优劣势和所支持的业务场景不同,查询引擎需要支持按任务类型路由到不同执行引擎的功能。

查询引擎需要高度抽象,其暴露的功能接口与具体引擎无关,对外隐藏具体的执行细节。对于查询结果,经由查询引擎封装后返回调用方,比如将查询结果组装为图表格式数据后返回前端页面展示。

图9-28 查询引擎
图9-28 查询引擎
5. 前端展示系统与其他模块

前端展示系统是用户可以直接感知和使用的功能系统。前端展示系统有哪些功能与业务需求相关,各类功能需精心设计来提高用户使用的便捷性。前端开源框架也有很多,比如React和Vue,本书第7章中也介绍了基于Vue搭建前端框架的步骤。前端应该关注功能的可用性与结果的有用性,用户可以简便高效地使用平台功能并满足自身诉求,页面展示出的各类结果需要明确且易理解。

为了保证系统的可靠性与稳定性,需要提供完善的系统监控能力。从数据接入到各类平台功能的使用,涉及的基础组件和功能模块比较多,当某个环节出现问题时需要被及时感知并进行处理。如果提供商业化产品,需要监控当前License是否合法,保证商业利益。

为了监控系统中的软硬件运行状况,需要提供全面和完善的运维工具。商业化产品还需要支持自动化的版本升级,降低人工干预成本、提高部署效率。


本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
您好,您因近期内容创作表现突出,已入选腾讯云开发者社区内容共创官计划。内容共创官计划是腾讯云开发者社区面向社区重点潜力创作者打造的内容创作扶持机制,提供一系列技术创作教程、独家有奖创作激励、活动优先参会、社区流量曝光等资源。请您添加社区助理微信(微信号: yun _assistant)沟通加入计划。
您好,您因近期内容创作表现突出,已入选腾讯云开发者社区内容共创官计划。内容共创官计划是腾讯云开发者社区面向社区重点潜力创作者打造的内容创作扶持机制,提供一系列技术创作教程、独家有奖创作激励、活动优先参会、社区流量曝光等资源。请您添加社区助理微信(微信号: yun _assistant)沟通加入计划。
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
开源埋点用户行为分析方案-ClickLog埋点(ClkLog)
进入移动互联网的下半场,以用户行为数据分析驱动的算法个性化推荐和人工精细化运营已成为各个产品必不可缺的配置,数据成为各产品的核心竞争力之一。
至存网络
2024/08/09
7610
开源埋点用户行为分析方案-ClickLog埋点(ClkLog)
【沙龙干货】主题二:一个用户行为分析产品的设计与实现
分享内容 ---- 今天想跟大家分享一下我们目前推出的一个海量用户行为分析产品---“神策分析”的设计与实现。由于脱离需求和产品谈技术是不合时宜的,所以我首先会先讲一下我们产品所面临的用户需求,我们是如何根据这些用户需求来确定我们的产品设计,以及这些产品设计对于技术选型的一些要求,后面再详细讲一下我们产品整体架构和技术实现。 简单来看我们的产品面临的第一个需求,我们的客户普遍需要一个可以私有化部署的用户行为分析产品,这个需求是可以理解的,也是有很多实际的原因:首先是出于对数据安全和隐私的考虑;其次则是希望
美团技术团队
2018/03/12
1.2K0
【沙龙干货】主题二:一个用户行为分析产品的设计与实现
20000字详解大厂实时数仓建设(好文收藏)
目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高的场景,对于实效性要求很高的场景还是无法优雅的支撑。因此实时使用数据的问题必须得到有效解决。
五分钟学大数据
2022/02/12
5.2K0
20000字详解大厂实时数仓建设(好文收藏)
金融科技&大数据产品推荐:神策分析——可私有化部署的用户行为分析平台
金融科技&大数据产品推荐:神策分析——可私有化部署的用户行为分析平台
数据猿
2018/04/24
1.6K0
金融科技&大数据产品推荐:神策分析——可私有化部署的用户行为分析平台
用户行为分析-埋点实时数仓实践
此文重点讲述埋点的数据模型、数据格式、数据实时采集、加工、存储及用户关联。关于用户行为分析的概念、意义以及埋点相关的东西此文不作赘述
大数据真好玩
2020/11/30
7.1K1
用户行为分析-埋点实时数仓实践
数据中台产品体系简介:一文带你了解数据产品经理都忙什么
毕业入行数据产品时这个岗位并不成熟,很多公司都不设这一岗位,也缺少数据产品经理相关的书籍理论。第一次职业生涯的迷茫期是工作的第三年,毕业前两年一直做数据可视化、数据报表产品经理,从单点的C端埋点、流量统计逐步拓展到管理驾驶舱、销售分析、商品分析、营销分析、画像标签、服务分析等更多业务板块,这个阶段每天忙于和各种业务指标、报表需求,为业务提供数据支撑,乐此不疲,以为数据产品经理的工作就是这些内容了,处于“愚昧山峰”之巅。第三年的时候随着数据可视化平台从0-1的逐步完善,指标覆盖健全,业务新增的需求数量明显降低,很难再挖掘出新的需求,每个版本可提前规划的需求紧急程度看起来似乎都无足轻重了,危机感顿生,担心自己即将失业,不知道还能做些什么,处于绝望之谷。所以在薪资、环境、团队都不错的情况下,选择了离职,想出去看看别人家公司都在做些什么。
数据干饭人
2022/07/01
1.9K1
数据中台产品体系简介:一文带你了解数据产品经理都忙什么
神策数据:在数据采集上的痛苦、幻想与失望
在这一年来接触了我个人接触了 200 家创业公司,发现都在数据采集上遇到多多少少的问题,我把它们归结为三类:
搜云库技术团队
2019/10/18
2.1K0
专访 | 神策数据CEO桑文锋:谁说大数据不需要「小而美」
从前任百度大数据部门的技术经理,到今天神策数据CEO,9年时间,桑文锋身上发生了许多变化。他笑称,这种变化从他的微信好友数量就能看出来。创业之前,他只有200多个好友,现在已经迅速逼近5000人的上限
CDA数据分析师
2018/02/24
1.2K0
专访 | 神策数据CEO桑文锋:谁说大数据不需要「小而美」
深入了解埋点分析:ClkLog助你优化用户体验
随着互联网和移动设备的普及,用户对数字化产品和服务的需求不断攀升。如何更好地了解用户行为,提升用户体验,以及优化广告效果,成为企业亟待解决的问题。 在这样的背景下,埋点分析成为了一种非常有效的数据收集和分析技术,为企业提供了深入了解用户行为和需求的工具,从而优化产品和服务,提升用户体验和满意度。
至存网络
2024/08/20
2220
深入了解埋点分析:ClkLog助你优化用户体验
如何快速搭建一个类似于神策数据或诸葛IO的数据分析平台?
Growth Hacking这个词在过去一两年开始迅速从硅谷传播到国内,也诞生了一系列专注于企业数据分析业务的明星初创公司,如GrowingIO,神策数据,诸葛IO等。Growth Hacking简单的来说就是用数据驱动的方式来指导产品的迭代改进,以实现用户的快速增长,可以看看上面几家数据分析公司披露的客户就知道它有多流行了: GrowingIO客户:有赞,豆瓣,36Kr等 神策数据客户:秒拍,AcFun,爱鲜蜂,pp租车等 诸葛IO客户:Enjoy,罗辑思维等 我司的一个主要产品是面向中小诊所的运营S
智能算法
2018/04/02
2.9K0
如何快速搭建一个类似于神策数据或诸葛IO的数据分析平台?
B站大数据平台元数据业务分享
负责B站数据平台工具侧元数据、数据运营、数据管理等业务方向,专注于元数据采集、血缘应用、数据地图、建模工具、治理工具等工具或产品功能的落地和推广。
从大数据到人工智能
2022/06/12
1.1K0
B站大数据平台元数据业务分享
电商数据应用体系建设总结(一)—— 数据应用架构剖析
数据应用是通过各种各样的数据分析方式将数据展示出来,给决策者、管理者、运营等人员透传数据价值的工具,帮助决策者、管理者及时调整战略目标、公司目标、业务目标,帮助运营人员更好地实现精细化运营、提升运营效率。
九州暮云
2022/05/09
8610
神策SDK全面支持海外数据规定GDPR,全程透明化可审计数据服务
随着欧盟通用数据保护条例要求(GDPR)正式生效,GDPR被誉为有史以来规模最大,也是最具惩罚性的隐私法之一。GDPR对于信息治理和数据隐私保护的认知更加深入,相关模型和规定更为明确和严格。
BestSDK
2018/07/30
9350
神策数据的进阶之路:从用户行为分析工具到全新的数字化营销闭环
“提示说明:数据猿最新发布产业全景图:2020中国数据智能产业图谱1.0版,欲获取超高清版大图,后台回复关键词“图谱”即可。
数据猿
2020/11/23
1.5K0
神策数据的进阶之路:从用户行为分析工具到全新的数字化营销闭环
腾讯SNG全链路日志监控平台之构建挑战
本文讲述了如何构建一个全链路日志监控平台,包括数据采集、存储、查询和分析等方面的技术实现。同时,文章还探讨了在构建过程中所遇到的挑战和问题,以及解决方案。
织云平台团队
2017/11/15
3.4K0
腾讯SNG全链路日志监控平台之构建挑战
前端工程实践之数据埋点分析系统(一)
本文首发于政采云前端团队博客:前端工程实践之数据埋点分析系统(一) https://www.zoo.team/article/data-analysis-one
政采云前端团队
2020/02/25
1.8K0
蓝鲸智云的幕后英雄:管控平台
蓝鲸智云,简称蓝鲸,是腾讯游戏运营部“腾讯智营”下的子品牌。它是一套基于 PaaS 的企业研发运营一体化技术解决方案,提供了一个完整的研发、运维、运营的PaaS技术平台。
嘉为蓝鲸
2018/12/21
3.5K0
SOC日志收集实践:企业邮件服务日志收集
这次我们举个接近实际生产的例子,来说明开源SOC系统如何采集数据,如果之前介绍系统是抽象的,现在就是实例具象的。平时我们利用日志系统收集了大量的各类的日志数据,如:Openresty访问日志、防护墙日志、VPN日志、邮件服务器相关日志、用户权限审计日志、路由器操作日志、甚至包括办公区AP的日志,DHCP日志。
FB客服
2018/07/30
1.8K0
SOC日志收集实践:企业邮件服务日志收集
【案例】某金融理财交易平台——用数据驱动实现金融理财交易平台的产品优化与运营
数据猿导读 无论B2B还是B2C公司希望通过数据驱动业务增长,其中B2B领域中,在数据驱动下的B2B领先企业的收入增长能力是普通企业的5倍、盈利能力高8倍、股东整体回报率高2倍。因此,数据驱动能力正在
数据猿
2018/04/24
2.8K0
【案例】某金融理财交易平台——用数据驱动实现金融理财交易平台的产品优化与运营
神策大数据用户行为分析
神策支持查看特定用户群的历史行为序列,找到提交订单行为,对此之后的行为进行人工标注,以推测后续未进行支付环节的原因
皮大大
2020/10/16
2.1K0
神策大数据用户行为分析
推荐阅读
相关推荐
开源埋点用户行为分析方案-ClickLog埋点(ClkLog)
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档