00:03
啊,大家好,我是白浩今天给大家分享的,呃,内容是标签体系的建设实践,从方法论到标签生产,再到标签应用,那么我们从这个分享的主题呢,其实就可以看出来,我们分享的核心的有三块内容,第一个呢是介绍了这个标签,介绍一个方法论,第二块呢,是具体标签生产的流程什么样子,最后一个呢,我们会以一个具体的一个真实的一个场景来。提升一下大家对这一块内容的一个认知,那么首先需要讲就是我们今天的分享为什么是标签这个主题,因为呃,从我们跟客户的沟通中呢,我们发现呢,其实大家可能知道标签这么一个名词,但是他具体是怎么来的,应该怎么科学的去用,其实还是比较茫然的。呃,今天的分享主题呢,核心是三块,第一块呢,是个推的数据生态介绍,主要给大家介介绍一下十几年,十几年以来呢,各推呃在标签这一块事情做了一些什么,已经各自的一些沉淀是什么样子的。
01:11
第二个呢,是标签体系的搭建,这个是我们今天分享的核心的规划内容,主要会跟大家讲一些标签的一些呃概念,还有核心的流程以及一些误区啊,帮助大家。能够从零到一实现标签体系搭建这么一个目标,最后一个呢,是场景的模拟,刚才提过了,会一个真实的案例来走通我们的标签体系的搭建。先给大家介绍个推的数据生态,那个推呢是国内首家上市的大数据公司,那我们服务的典型客户呢,有新浪微博啊,人民日报这些,呃,头部的一些资讯类的也有像滴滴呀。饿了么这些,呃,跨领域的一些公司,那么我们经过跟这么多行业的客户,以及不同规模的客户之间多年的沟通,我们自己呢,也沉淀了一套庞大的标签体系。
02:09
呃个推的标签体系呢,大致可以分为三类,这些标签可以说是个推在激烈的市场竞争中赖以生存的一个重要砝码,时刻推的核心资产,我们核心的话呢,其实分为呃,基础属性,兴趣偏好跟场景的偏好,数量的话呢,有上千个。那所以今天核心的内容呢,就是说来阐述两个问题,第一个为什么我们需要一个标签体系,第二个。如何搭建标签体系?这应该是大家想把数据资产化碰到的最大的两个问题。那接下来给大家介绍第二款内容,就是标签体系的搭建。呃,首先需要一个问题啊,就是我们为什么需要标签。对吧,有了解决这个问题之后,我们才能呃做接下去的一些探讨。
03:05
首先是我们的现状是什么样子的呢?就是呃,随着大数据啊不断的被提及,或者说各种文章也在写这一块,大家对数据的一些呃重视性呢,越来越多。然后非常多的公司呢,开始源源不断的去,呃,购买一些第三方的工具,来收集自己业务产生的一些数据,但是这些数据呢,会有几个明显的一些问题,它是数据而不是资产。这两个是有一个名那个,呃。非常明显的一个不同的数据的话呢,就是一些旁卖无用的,那什么是资产呢?资产呢是经过一定处理的,然后对业务有用的才叫数据资产,这个就两个核心是对数据经过处理,然后将数据变成业务可用的,这个才数据资产。那么像数据变成资产的核心的一点呢,就是。
04:02
那么如何呃去对处理这些数据,第二个呢是呃,我们的成本呢,是不断的去上升的,成本的话呢,就包括三类,一类是呃,人力成本,一类是呃。工具成本,工具呢,包括一些计算的一些呃,服务器啊,一些存储的服务器之类的,还有一些是营销的成本啊,因为现在的话呢,营销。那个成本越来越高,是因为呃,竞争越来越激烈了。那么这就诞生出了一个需求呢,其实就是降本增效,我如何用更低的成本来增加一下我具体的一个一个效能。呃,具体的实实施方案在互联网领域比较常见的话呢,就是精细化的,智能化的以及数据化的管控,什么是精细化的呢?精细化呢就是呃,千人千面那个性化推荐,那其实是一个精细化的一个管控的一个,最常见的一个体现就是根据不同的用户推送不同的一个内容,而不是说所有的用户来进行推荐同一个内容,因为每个人性是不一样的。第二个呢,什么是智能化,智能化呢是呃,可以。
05:11
更低的减少人为的去呃参与整个决策的过程,那么举个例子的话呢,呃,比如说我一个营销的推广的一些文案,我是否可以根据我以往的呃不同文案的点击率,我智能的生成呃推荐的文案给不同的用户,这样的话可以减少。人为的去介入,提升一个工作的一个效率,以及提升去最后的一个营销效果。第三块是数据化的管控,就是我整个链路呢,我都是有数可依,我可以从项目的发起,再到项目的过程中,各种的比如说的啊,流量的分发,用户的点击,最后购买的一个实际的一个验证的效果,我都能够通过数字来进行一个合理的管控,这样可以方便我们后续去提升我们整体的一个营销的一个效能。
06:02
最后一个呢,是形成壁垒啊。壁垒的目标呢,是说将我们原本的业务经验沉淀成呃数据经验,呃数据的话呢,一般就可以分为呃数据本身,然后模型跟工具沉淀,那这样的好处呢,就是说呃我原本的业务经验,或者说是一些营销的经验呢,是沉淀于个人中的,但是当个这个人,比如说因为个人的原因,呃工作岗位经常调动或者离职,那么这个经验有可能会随着他的离开而离开。那么当我们把这些经验沉淀在呃,数据、模型和工具上时呢?就是可以永远的留在这个公司的一个框架内,而不会导致一个资产的流失。那么实现以上。这一块的流程。可以说标签是一个非常非常好的一个载体。这就是为什么我们是需要标签。
07:02
那么要实现上面一些。好的一些愿景的话呢,在实施步骤肯定会有面临非常多的问题,那么经过我们这么多年跟客户的一些交流反馈啊,总结起来呢,一共是有五点,第一点呃是数据是怎么打通。因为呃一家公司往往呃会采购多个不同的系统来实现自己的业务的诉求,比如说呃我财务系统可能用的是金蝶的,然后呢,用户管理呢,我可能用的是呃CRM的第三方购买的。然后我的订单系统呢,有可能是我公司内部自研的,那么。这样子可能就是我这个部门就就已经有呃三个不同的系统了,而且这三个不同的系统呢,又分散在三个不同的部门里。那系统。不同的系统之间的数据的流转和数据的格式存储啊,肯定是不一样的,那部门之间的对这些数据的运用呢,也是不一样的,而且很有可能在同业公司里面,它是会有部门强,就是说我这个部门产生的数据,我是希望给。
08:14
呃,其他部门用的或者说呢,合作的意愿呢,是非常非常差的,呃,这一块在一些比较大的公司呢话呢是比较常见的,因为数据就是资产啊,资产其实就是啊一些零售啊什么之类的,那其实就是提升机的KPI的这个东西我怎么能够给你呢。那第二个呢是呃,缺乏数据处理的经验和能力,这个呢,主要是缺乏工具个人。因为呃,有深厚的数据处理经验的人才是非常非常稀缺的,而且一般价格呢,他说呢会比较高,但是呃,有些公司呢,就是可能就不愿意花这么多钱嘛。所以。数据一直没有得到一个很很好的一个治理,使它仅仅是成为一份数据,而不是成为一份资产。
09:04
那第二个问题呢,是标签体系下如何搭建,这一个呢是主要体现在两块,一块是标签需求随意,就是我提标签的时候是我认为这个标签是有用的。而不是说这个标签是对业务是否有用,他没有考虑这一点,那就比较水准。我想。做什么就做什么,体现在第二点呢,就是标签的生产和管理混乱。这个。核心原因呢,是一个没有核心。的一个标签的责任人机制,那这个会产生混乱的一个具体的一个现象呢,呃,比较常见的就是当我身体一个标签的时候,那我因为这个idea是我想出来的嘛,所以我非常的呃。我用非常多的精力去根据这个标签的迭代上线,一开始上线之后,诶,效果也非常非常好,运行运行的也是比较稳定的。
10:01
但是之后呢,我就不怎么管了,但是呃,业务呢,它是不断的去变动的,有可能是。这份标签依赖的底层的数据呢,进行了一个变更,或者说呢,是业务整体的对这个标签的一个诉求呢,已经已经变了,但是这个标签上线之后已经没人管了嘛,虽然他在一直在跑,但是他最后的一个数据的呈现效果,或者说是数据的底层一些。逻辑其实已经。往往那个事与愿违就会导致。上层的业务人员用的也是一个。其实是。没用的一个标签,这就是当前生产和管理混乱带来的一个问题。第三块是数据应该怎么应用,就是我将标签创建好之后,我是否有一个合理的营销的规划去使用我这块。呃,标签的数据。第四个是呃如何提升效果,这个主要体现在呃,我无数据监控指标,就是我做了一个营销活动,我进行了一个呃预算的一个投放,但是我不知道具体我这个预算投放是大概多少多少人,比如说我这个预算的是10万,我10万花下去之后,我不知道我这个营销活动给我提升了呃是带来了1万个新用户,还是5万个新用户,还是10万个新用户。
11:22
就不知道完全是磨合的。体现的第二点呢,是无策略优化方案。那举个例子啊。我投了10万块钱,一开始呢,用户的回购率呢是10%,但我呢想。把这个目标提升到15%,我应该怎么去做?完全没有一个科学的一个指导,有可能是判脑袋,我认为可能是那样,然后他可能认为可能是那样,最后说呢,就是看谁脑袋比较大,就听谁的,那这个呢,其实是一个。完全是碰运气的这么一个一个事情,最后一个是呃,经验如何沉淀,这个刚才也提到了,就是现在的经验呢,往往沉淀于个人,这个资产沉淀于个人是会有流失的风险的,而且呢。
12:10
通用性呢是比较差的。这块就是。呃,这五个呢,其实就是呃,标签落地面临的核心的几个问题。那我们标签建设一共有五个核心的流程。第一个呢,是确定目标。呃,目标的话呢,我们又分为业务目标跟系统的目标。然后第二个呢,是标签体系的设计,这一块呢,核心呢有三个点,第一个呢是确定的标签的目录,这个这个意思就是说要确定我想要什么样的标签,以及它的分类是什么样子的,第二个呢是进行数据盘点,我根据标签目录来进行数据盘点。这来确定我想要哪些数据,那比如说我想创建一个性别的标签,那么我去盘点我的资产库里面是否有性别相关的字段。
13:06
那么再将这些字段进行加工,第三步呢,是定义标签的规则,我这个标签具体是什么样子的啊,或者我这标签具体是什么规则,比如说我想创建一个大学生这个标签,我应该用什么数据以及什么规则来定义我这个大学生是说呃。我去过去过大学生这个大学这个地点,我就算大学生呢,还是说我的年龄是18~23岁就算大学生呢?第三块呢是呃标签的开发,这一块呢,是核心分为工程的开发,呃这个呢,主要是我们的呃研发工程师来根据你。标签的规则以及数据来写这个,开发这个。工程流程来进行上线。第二个呢,是工程测试,就是我们的测试同学呢,根据呃,你你的那个业务的诉求,以及工程的一些。
14:04
啊,结果来进行,来对这个标签的质量进行一个呃测试嘛,发现一些问题,最后一块呢,是工程的上限,这个上限呢,呃,不单单是说把这个开发的代码发布到线上,然后计算跑,而是说要根据。呃,业务的情况来进行一个线上的验收,也是有这么一个环节的,就不单单是代码上线这个。接下来呢,就是呃生命周期的管理,这个呢是在标签上线之后的,这个核心呢,是分为呃流程的管理,质量的管理跟规范的管理。最后一个呢是应用和反馈,应用的话呢,常见会有一些人群缺选,还有画下的洞察这一块过会会以一个真实的案例来跟大家进行一个分享。那我们第一个就是。确定目标。目标。
15:02
分其实分为两种,我们根据使用场景呢,我们可以确定应目标跟系统目标,那应目标。可以是,呃,用户次日留存,比如说提升20%,然后标签生产周期从一周降低到两周,就我们设定业务目标的时候呢,需要有一个准则,就必须是和。可量化的一个目标,比如说提升到20%,或者从一周降低到两天,那这个都是可量化的一些一些数值,而。所以不能定义为说啊,我要提升我的用户自留存,那具体多少,比如说啊,这个是一个不合适的一个业务的目标,第二个是呃系统的目标,系统目标呢,大致可以分为功能的要求,就是我明确我想要什么样的功能,比如说常见的呃,支持可视化标签的和。群体的创建管理,然后性能要求的话呢,我千万级的用户小时内。完,计算完成。
16:01
啊,这个就是一个一些系统的目标,就是你对这个系统你想要达成的一个。目标是什么样子的?呃。为了统一大家的一些认识啊,在讲下面的内容之前呢,我需要先讲一些重要的一些概念,第一个就是最核心的什么是标签。标签的是主体某个维度特征的描述,是一个描述信息的数据,呃,这么讲呢,其实还是比较抽象的,笼统的讲的就是可以描述我这个人。任何信息的数据都可以是标签。但呃,网上呢,也有一些不一样的一些见解啊。有些人认为呢,标签呢,是必须是通过规则组合产生的才能是标签,比如说呃,我最近60天未登录的用户定义为流失用户,这个流失用户算是个标签。但是如果说我是基于。
17:00
属性,比如说是个男女,这样创建了个标签啊,这样创建的信息他认为是一个属性数据,而不是标签,但是呃,我认为这里其实都是啊。所以统一概念的话呢。呃,需要大家理解,那这一点其实都是标签,第二个呢,就是用户画像。用画像是用户拥有的标签,就是我这个人,或者说某个个体拥有哪些标签呢?其实就是一些用户的画像。第二个呢,呃,第三块呢,是群体。什么是群体呢?群体一般来说就是可以是根据规则组合筛选出来目标的人群。这个规则呢,可以是呃标签的各种的规则组合,也可以是用户属性的一个规则组合,反正是通过各种的一种逻辑判断来筛选出呃目标人群这一批人。最后一个就是群体的画像,群体画像是呃,目标人群中不同标签的人数的占比情况,哎,这个跟用户画像是有明显的区别的,那画像是说呃,我这个人有哪些标签,但是群体画像呢是说,呃,不同的标签在这些人的这个占比是什么样子的?
18:12
呃,比如说呃,页面上违例的活跃用户有多少人,成功用户有多少人,比如说用户多少人,呃这些呢,分别是三港流的标签啊。那这个可以知道说这样有什么用呢?呃呃,军定画像呢,一般来会做一些,呃。精准营销或者说是一些啊。个性化的一些推荐什么之类的。下面的概念呢,是。事实标签,规则标签跟模型的标签,这里呢,是根据呃生成的依据不同来。划分的,那从业务方的原始数据中提取,呃,例如从注册信息中提取用户性别,那这里呢,就是事实标签。第二列呢,就是既没有直接对数据,没有直接对应的数据,需要通过。
19:02
呃,规则进行定义,例如将近60天未登录用户订阅流失用户,那这个呢是呃。规则标签。呃,最后一类呢是模型标签,模型标签是参考已有的视觉数据来预测用户的频号分类。比如根据流失用户的特征来预测其他用户的。啊,流失的概率,那我们就可以做一个流失概率这么的标签,那这就是啊模型的标签。接下来是步骤,第二步,呃,标签体系的设计,呃,这个呢有两个难点,第一个呢是。确定标签目录,呃。我们需要什么样的标签,以及我们能做哪些标签。第二点是确定标签的规则。我知道我想做什么标签之后,这个标签的具体规则应该是什么样子的。要。构成这些规则,我又需要用到哪些的数据?其实上面讲到是确定标签目录嘛,那标签目录的话呢,一般是根据业务加入数据驱动来确定标签的目录,那业务驱动呢,其实就是呃,基于我业务的诉求来提出标签的需求。
20:13
呃,举个例子呢,我想建两个,建一个R标签跟APM模型标签来进行用户分层的标签,那如果我提为了提升我的风险的识别能力,那么我可以建一个风险账号的标签和黑名单标签,然后提升付费转化率的话呢,我也可以做商品编号标签和价格敏感度的标签。那右边这一块呢,就是数据的驱动,因为业务人员呢,他往往聚焦于业务上,他会提出一些业务的一些诉求,对底层的数据呢,他是不知道的,他有可能不清楚。我们有哪些的那个数据的资产,其实也是可以用来反哺业务的,那这个时候其实就是需要从那个数据资产的情况来提出一些啊。标签的些需求,比如说我们可以居住率可以基于呃场景数据呃和那个居住地的标签跟旅游批的标签,或者说呢,基于PT的数据做一些绝对的标签。
21:11
这个呢?举个简单例子,当我发现用户呢,他安装了美团的众包,或者饿了么众包啊,这个APP呢,那么其实我们可以认为它很可能是一个外卖骑手。当然了。在实际运用中呢,不是说单纯的业务驱动跟数据驱动,而是说是两方进行不断的沟通磨合,最后确认了一份啊标签的体系。这里有两个常见的误区,第一个误区,标签越多越好,不是这样的。业务呢,往往不需要那么多标签,但我们实际的,呃,工作呢,我们发现。啊,20%的标签呢,其实就能满足业务80%的一个需求,所以标签不是越来越好的,第二个是越高级越好,就是不要花非常非常多的时间去追求它很高级的标签。
22:09
这个常见的就是一些复杂的模型的标签。呃,基础标签往往就能解决业务的一些需求啊,这个是我们那些算法同学或者技术类的同学。比较容易犯的一个问题就是。花大人的时间去。呃,优化这个模型,但是对业务的提升效果呢,其实是非常非常有限的。要完成,呃,上面那些,呃。步骤啊,或者说是完成整个标签的构建,必须要做的一个机制呢,是数据建设的基石,这一块呢,我简单讲一下,其实核心的完成什么呢?一个是呃,数据的统一的存储,然后是。One model one ID的统一的一个打通,然后统一的那个one model的统一的一个规划,或者说们统一的一个建设,最后形成我们整一个。
23:09
数据的一个建设的体系。呃,经过上述那些步骤呢,其实我们就可以根据呃。业务方的数据资产跟标签的需求,来最后确定我们整体的一个标签的目录。当我们确定好。呃,标签体系以及需要用到的数据的时候,那我们接下来就是要确定,呃标签的规则,标签规则呢,确定思路呢,我这里画了一个简单的图。呃。第一个就是需求确定,需求确定之后是进行数据梳理,当我们发现我们的数据库里面呢,有直接可用的数据的时候,那么我们其实这个时候呢,就直接拿来用,就可以剪一个事实的标签。然后第二列呢,是呃经过一定的分析的探索来进行呃原始规原始数据的规则的拼接,那么这一点呢,其实就可以构成那个规则类的标签,最后当我们发现前两类标签呃做成的量级或者饱和度或者准确度不够,那我们这个时候呢,我们就可以模型的标签来进行一个人群的货量。
24:22
下面我以一个大学生标签为例。探索一下这个规则是怎么产生的啊,第一步我们确认需求,首先我们要明确什么是大学生,大学生这个含义是什么,然后经过沟通呢?我们去年大学生呢,是指高校本科和专科生。呃,硕士生以及博士。年龄呢,一般在18~30岁之间。第二步,寻找匹配的数据,我们在,呃,我们的数据呢。探索发现的是POI。和高校相关的POI跟APP数据有一定参考度,但是P的颗粒度呢,是比较粗的,他们无法提出非师生群体,比如说商户啊,周边的居民,校园里的工作人员等等。
25:12
但是呢,大学生啊,他有专用的一些APP,比如说高校的一些教务的系统,还有四六级考试的一些APP,还有一些相应的社团等等,这些呢,进程度呢,其实是比较高的。那么。这个数据其实我们就可以就可以来用了,第三步呢是规则的实施,首先我们先用APP数据进行一个目标的全选。啊,当然这个前提是我们要把APP数据填写好啊,就是这个报名对应的是啊,什么样的APP啊,我们需要有一个明细的一个自检表,第二个呢是呃,剔除年龄不在18~30岁之间的。这样就可以把一些呃,老师啊,这些呃年龄比较大的一些群体给踢出出去了。然后经过上以上两种常规则方式,如果找出来的人群呢还是不够,那么我们就可以通过模型来进行扩量,就是将上面两种规则拼接出来,两种规则拼接找在人群作为种子用户,然后进行模型的一些框架。
26:11
这个呢,就是一个大学生标签的一个规则的探索的案例了。接下来我们要讲那个。呃,模型类标签,这里给大家有一个事例啊,就是模型的标签,最常用的是二分类。啊二分类相比最常用的就是那个A2模型啊,这个例子是用AR模型呢进行动过量,但。但是一共呢分为四步,第一步是正负样本,这个是我们需要自己准备一份正样本,最好一个负样本,如果副样本没有的话呢,可以是呃,在大盘里面随机抽这个副样本,第二部分呢,是进行一个特征筛选,就是我去计算是我正样本和负样本里面它们有哪些。高浓度或者说高高低加的一些特征,然后我进行人为的一个介入,我觉得这个特征其实是能够。提升我这个模型训练的,我把它加起来,如果这个另一个特征没用,然后把它删,删除这个模型特征筛选特筛选的。
27:07
是用来模型训练的一个特征,那第三块进行模型训练,在模型训练呢,我们。可以看这个,呃。一个混淆举证来看一下这个模型的一个大致的一个召回率的一个,呃,准确率是如何的。最后呢,是一个模型的预测,那么。进行人群的扩量。就是从正样本一万多呢,变变成了1000万多呢。形成的那个1000万倍啊,1000倍的这么一个一个扩充,这是一个比较简单的一个例子啊。当我们确定好呃,我们想要做的标签以及对应的数据以及规则之后,那么就要进行一个标签的生产,呃传统的标签的生产呢,一般是说业务人员他提出一个诉求,然后将这个需求诉求,行业需求就转交给我们的呃开发工程师,开发工程师呃来进行一个代码的一个撰写,然后来进行一个上线,上线之前呢,那肯定是需要经过我们的测试同学来进行一个测试的,就上线之后再由业务同学来进行一个验收的工作,来看一下这个标签是否满足啊具体的业务诉求。
28:19
那这个流程呢,是非常长的,一般来说呢,会呃快的话可能一周,慢的话呢,可能是两到三周,因为呃,像数据研发呢,他可能还有其他的事情,就不能一下子马上投入到这个标签的生产过程当中。但是呃呃,基于此呢。他这些问题呢,其实可以通过我们的啊每日技术平台来解决,我每日技术平台呢,呃打的呢,就是一个呃可视化的一些数据分析,可视化的一些呃标签的一些智能构建,这样的话呢,就能赋予我们的业务人员能够摆脱予呃开发人员的一些呃人力的一些评级,能够自己在页面上进行一个。啊,页面的一个操作,那比如说我们要创建一个事实类的标签,我们只需要,呃,让那个业务人员啊,不是让那个数据人员。
29:10
呃,处理好。底层的用户的一些属性表,我们就可以直接在页面上面进行一个规则的一些配置了,比如说我这个表里面字段有ID跟那个注册渠道,那么我建页面上面就需要可以说啊用户的注册渠道的APP,那么就可以完成这个注册渠道这个标签的一个一个创建工作了。啊,规则类的标签呢,其实也是一样的,只不过呢,呃。呃,它的规则呢,是由多个条件来组合完成的啊,就非常非常的简单。第三个呢是模型的标签,模型的标签的话呢,它流程呢,相对来说比较的长,但是呃,页面都是。可读的,可读性非常高的,非常简单啊,第一步呢,就是上传的正负样本,我们在页面上面啊,直接将我们的正负样本通过Excel导入进去。
30:06
第二个导入之后呢,我们呃,系统呢,会根据呃。呃,你导入ID跟我们的历史的一些特征,跟我们自有的一些特征过来进行一个匹配就可以。看到我们的那个正样本跟负样本的一些特征的一些资源的情况,以及具体的一个特征的分值表,我们可以根据这些数据来进行。客人筛选来确定。我们后面需要用于。预测的一些特征。第三个是查看查看模型的一些,呃,训练效果,这个呢,关键就是看这个矩阵嘛。第四个呢,就最后呢,就是进行模型的一个扩量,可以看一下不同的分值的人数的一个具体的一个占比的一些情况。呃,模型的标签呢,需要注意一点,就是我们数据质量和丰富度啊,决定了模型结构的好坏啊。这个占比呢,大概是80%的数据呢。
31:04
是非常重要的,那反而呢,我们的模型调整呢,可能只占了20%的这么一个。呃,效果而已。呃,举一个真实的我们各队内部的一个案例来说明一下。特征对于模型的一个一个。呃,重要程度吧,我们一开始呢,呃只用了一维的特征呢,只有APP偏号,就是这个用户的安装了哪些APP呢,对应的就是报名这个auc呢,大概是呃0.78左右,后面呢,我们通过APP的为表加入了APP分类编码的设置特征,那形成了多维的特征,这张表呢,呃对应的就可能就变成了三列ID报名以及报名对应的一个分类,那么。这个结果呢,就是提升到了。Auc提升到0.86,我们整体的auc呢,提升了百分之。9.42,这个提升是非常非常明显的,但是我们。
32:03
特征处理的工程呢,其实是相对来说是比较简单的。当我们标签构建好之后呢,我们还要进行一个准确性的一个呃校验,这块校验呢,大致可以分为三块,第一块呢,是通过TGI进行逻辑自洽性的交易。那比如说我构建了一个男性的标签。呃,但是我通过T加呢,发现。被打上男性标签的人,还有非常多被打上了女性的标签,那这个呢,其实肯定是呃不合理的这么一个现象,第二个呢,是去第三方平台校验,那这个一般用的比较多的话呢,是广点通,就是我将我男被打上男性的标签的GPD去产生的广点通来进行。呃,他他那边的一个,他会反馈反馈结果的嘛,就是具体的一个,根据具体的反馈结果来进行那个,呃,准确性的判断。天算办的是我们实际的进行广告的投放。
33:01
通过广告的那个AB测试来照念我们这个标签的准确性。这是比较常见的三种的方式。那我们标签上线之后呢,我们还要进行呃,生命周期的管理,这个呢,主要分为三块啊,我就简单讲一下,第一个呢,是标签的质量管理,这主要是标签的覆盖人数啊,覆盖的比例,这个是否符合我们的预期,或者说他这个呃。波动是否有,是否有非常明显的一个波动,第二个呢是呃,标签的使用情况管理等。就是标签的被占用次数跟引用次数,那这个呢,其实就是一个标签的热度,当我一个标签上限了很久之后都没有被使用或没有被引用,那说明这个标签其实对业务来说是无用的,我们就需要进行一个下线的一个操作。第三个呢,是。标签权限的管理主要是页面浏览权限跟数据查询权限,因为标签是一个核心的资产,它里面富含的一些。
34:02
逻辑啊,或者说一些结果都是非常,呃,或者说有时候是一些比较敏感的数据,所以需要进行一个权限的管理工作。然后是我们的质量保障体系,这这一块的核心是啊,我们需要一个责任人制度啊,作为标签的第一负责人,及时的响应标签相关的事项,然后呢,是我们需要将流程的流程进行规范化,就是标准的开发、测试,上线,上下线的环节。然后是监控的体系化,通过定时工程监控标签性的工程,呃,量级滑度啊等信息,当有一些呃特殊情况的时候呢,需要进行一个及时的预警。第五块呢,就是我们标签的具体的一个应用流程,呃,根据使用方式的不同的,大致可以分为三类,第一类呢是数据类的产品,呃,最常见的就是个性化的推荐系统,广告系统了,这个呢,就是直接查询客户的啊,或者说是呃用户的标签来通过根据用户的标签的结果来做出对应的一个反应。第二第二块呢是。
35:10
人群的特征洞察。他这个呢,是不会直接查询。某个用户的标签,而是说呃,先通过标签的规则组合来圈选出一批人,然后对这批人呢进行特征的一些洞察,看是否有一些自己。没有想到的一些,呃,比较有意思的东西。第二个第三块呢,是一个精细化的运营啊,主要是使用精细精使使用差异化的方式。可差异化的渠道。对不同人员。进行触达,嗯,最常见的话呢,就是将用户进行分层。比如说将用户分为流失用户跟高价值的用户,那么我们对流失用户呢,就可以呃发放一些大额的优惠券来吸引他进续回来,然后对高价值用户呢,可以使用一些具有人文关怀的一些。
36:08
东西来提升他的一些满足感,或者说尊贵感。比如说在他过生日的时候,我们送他一些食物,实体的一些物品送给他。运货的感觉会非常棒。嗯,这个呢是某金融产品用户促活的一个案例啊,这个以这个案例呢,给大家介绍一下标签的一个大致的一个用法,呃,首先用户他是有一个CRM系统呢,CM,他呢先通过CRM的数据呢,构建了一套自己的一套标签的体系。然后呢,在。对标签的进行筛选。啊,那如果说是优质用户,那么就是正常的发送短信。第二步呢,是进行一个标签的筛选。那么呃,如果筛选出来是优质用户,那么就是正常的发送短信,那如果是不符合的用户呢,就会进行拦截,就不做任何的一些处罚,呃。
37:08
如果是一些请客,就会根据他被打上的一些标签,比如说是基金理财偏好的一个标签,那么就会发送基金理财相关的一些。啊,权益给到他,如果说他是有买房需求,就会发现买房需求的权益给到他。最后。像这些呃,整体面部下来的数据呢,还需要到CMCM里面数据进行入库,这样的话呢,整个流程就可以做到一个体系化的一些管控。整个流程下来了以后呢,呃,节省了9%~12%的预算,然后从流程上来说呢,又实现了说啊,通过标签来完成精细化运营的这么一个实操的这个案例。最后一个环节呢,给大家模拟一下一个场景啊呃,这个呢是以召回流失用户为例的。
38:01
啊,那么第一步那肯定是根据我们的目标来设计我们的标签体系,这里我们用一个比较流行的OSOS模型,O呢就是目标,那目标呢,那刚才也提到,就是我们召回用户的流失用户,S呢是策略,策略呢是根据流失用户的历史的购买的类型啊,活动时间段啊,啊年龄层次等等来设定,呃,具体的一个营销策略,以此来。呃,刺激用户的一个,呃,一个心理达到那个用户召回的这么一个。目标最后的度量是我们的标签的准确性以及一个召回率那。右边呢,可以看到我们的标记体系,大概有什么性别啊啊,年龄段啊,活跃时间段等等。第二个呢是呃数据的处理,我们需要盘点企业内部有价值的一些相关的数据,呃经过体内呢,我们呃发现就是属性类的数据的,比如说年龄属性啊,性别属性可以用来建建那个呃性别标签跟年龄段的标签。
39:09
拿一些行为的数据,比如说登录时间啊这类数据,那么其实我们可以做活跃时间段的标签,那么购买商品这个数据呢,其实可以用来用。可以来做那个产品编号这个标签啊,一次等等,就是进行一个数据的梳理。当我们数据梳理完之后呢,我们就可以用我们的DL平台来进行一个呃标签的构建,但这里呢,其实还有一点。就是标签构建,除了要构建性别跟名额的标签,其实还要构建我们自身的一个流失人群的这么一个标签。就是来,因为呃,我们手上的流失用户人群呢,可能是只是一个小体量的,那么我们通过呃模型货量来洞察。我们通过模型来洞察这个流失用户的具体一个特征啊,然后从而筛选出高。
40:01
嗯,机的特征,最后再进行一个呃规则的配比,这样的话我们就可以呃。扩大我们这个流失人群的这么一个呃范围了。啊,这是一个简单例子。第四步呢,是进行一个人群的。一个营销投放这里呢,需要用到我们的营销,营销系统跟CM系统,这个就是需要业务人员根据不同的呃呃流失用户里面有的不同的那个特标签,来制定对应的那个影像的策略的方案。最后啊,去去在那我们的营销系统里面来进行一个最后的投放。最后呢,其实就是啊,效果的评估了,就是基于增值样本数据进行人群的准确性的评估,就是根据我们的投放的一些策略投放的方式来。呃。照应我们的整体的效果。
41:06
呃。总结起来,标签体系,构建标签体系最核心,最核心的其实就是让业务用起来,让业务用起来才能让你变得有价值,第二点呢,就是那业务起来之后呢,才能根据业业务的反馈来提升我们整体的标签的一个质量,以及整体这个流程。好,今天的分享大概就是这些,谢谢。
我来说两句