首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

百分点数据科学实验室:烟草行业市场信息采集数据质量评估体系研究探索

编者按

对于烟草企业来说,掌握真实市场消费信息对于货源的精准投放、研究市场的真实需求、完善区域内卷烟产品进退的机制、探索卷烟产品发展周期的拐点等起着重要的参考作用。

未来,在卷烟市场全面进入数字化时代后,通过采集市场信息所形成的数据分析将在上述业务环节中起到关键性、决定性的作用,因此如何有效地针对市场信息的数据触点(云 pos 终端机)建立起数据质量评估体系,科学引导零售户正确使用终端机,从而提高整体数据质量,获取真正实用的基础数据,是当前烟草企业首要解决的核心问题。

在本篇文章中,百分点数据科学实验室基于实际项目中的实践经验,总结了一套烟草行业市场信息采集、数据质量评估体系建设的方法论。

一、相关概念介绍

终端机:指在门店部署云 Pos 终端机的零售户门店,由云 pos 终端机提供市场信息采集所需要的数据,所有配套了云 pos 终端机的零售户门店统称为云 pos 终端(以下统称终端机),而配套了终端机的零售户实现了卷烟或非烟商品在进、销、存方面的自动化数据管理,可为市场信息采集提供时效性较高的数据资源,未来终端机将逐步全面覆盖所有的零售户,为数字化卷烟销售提供硬件基础。

终端机数据质量:指对终端机提供的进销存数据在真实性、完整性、准确性的要求,数据被评估与判断为质量越好的终端,其所提供的市场消费数据可深入分析的价值越大,可在卷烟市场价格指数等主题分析的探索研究中起到重要作用。

市场分析样本:基于样本估计总体的分析思路,根据层级结构、数据质量、样本库数量要求抽取符合要求的市场信息样本点进行数据分析,样本点由信息采集点中择优选取,存在一定的比例要求。

二、市场采集的价值

洞察市场 优化卷烟经营环境

在营销转型的新形势下,烟草行业对于社会消费、库存数据的分析与应用具有迫切性。从微观层面看,烟草行业迫切需要了解每一款投放产品真实的市场状态,准确识别产品所处的生命周期阶段,为卷烟产品在各区域的进退提供数据依据;从宏观层面看,迫切需要对卷烟市场的社会库存压力进行科学评估,准确把握卷烟发展拐点,在工商协议的签订、货源投放的精准、社会库存结构的优化方面向数据驱动模式转变。

同时,在卷烟专卖管理数据分析方面,市场信息采集对市场经营环境起到净化作用,如对社会库存的研究,可从源头上发现真烟异常流动(区域间窜货)的违规行为,提前响应市场管理机制,进一步加强对卷烟市场的管理水平。

综上所述,市场信息采集对于卷烟行业的重要性逐渐突显,当前市场信息采集的获取途径是零售户门店所部署的云 pos 终端机,它们构成了市场采集的数据触点网络,是实现自动化信息采集的硬件基础。

发展模式的转变

基于市场采集所反馈的数据,烟草企业能够掌握更多的市场真实消费信息,加深对消费者行为的研究,不断挖掘出市场的真实需求,在有效帮助零售户提高盈利水平的同时,还能不断增强烟草企业的渠道掌控力,实现由传统卷烟批发商向以数据驱动主动力的模式转变,加快企业由卷烟批发企业向新零售供应商的升级转变。

三、市场采集的问题

1. 数据质量要求

根据需求调研,从数据可应用的角度来讲,市场采集数据只有合格与不合格两种,主要体现在三个方面:

  • 真实性,即所采集的数据能真实反映终端的销售情况,否则采集就失去意义;
  • 准确性,即所采集的数据准确无误,不能有偏差,否则不能反映真实的市场情况;
  • 完整性,即除了卷烟商品外,还需要采集非烟商品的销售数据,才能更准确的反映出该终端所面临的消费群特征。

只有符合真实性、准确性、完整性三个特点的数据才是合格数据。当前,造成数据不合格的主观因素与客观因素如下:

主观因素

软件使用者在主观上不想把真实的销售情况通过扫码销售反映出来,因此存在集中扫码、数据修改频繁、库存准确率低等问题。

客观因素

即使软件使用者愿意将真实销售情况通过扫码销售上传到烟草公司,但由于使用者能力不足、指导人员没有进行有效指导、设备故障等,造成数据不准确、不完整,导致数据准确率低、非烟商品扫码数量与种类低、库存低于合理值等。

根据实际业务调研,目前市场采集尚处于终端机设备的初始推广阶段,零售户在主观与客观方面的因素造成了原始数据质量不高,因此需要在初始推广阶段,结合客户经理基层拜访的实际工作情况,形成适合当前阶段的零售户终端机使用行为评估与样本点筛选体系,基于体系化管理引导零售户群体规范化终端设备的使用行为,逐步将整体数据质量提升,为深层次的主题分析打下数据基础。

2. 质量评估量化

进销库存数据主要由 4 张基础表组成:

登陆日志表

销售单行表

入库单行表

客户商品库存表

基于终端机的数据源表结构,结合对实际业务的调研与总结,本文初步探索出以下的可量化分析维度:

终端扫码时段

终端扫码时段是指每日终端机存在有扫码动作记录的时段,一天共有 24 个时段,若零售户在 1 天的有效经营行为中,销售执行动作的扫码时段较少,则属于不正常扫码现象,需要及时介入引导。

系统在线时长

每个终端机都通过有线网络连接至后端服务器,且均有配套的管理账户,当零售户登录终端机系统后,后台服务器将持续记录其登录状态,若终端机断网,则后端服务器显示终端机账户离线,可能存在经营异常,需要及时反馈实际经营情况。

扫码金额、零售量

扫码金额,指单个商品或者单笔的销售总金额、总销售量,若出现较大的异常值,则可能存在集中刷、乱刷的使用行为,目前仅限于对卷烟商品的监控。

扫码笔数

扫码笔数,指销售的订单数量,一笔订单包含多个商品,一笔扫码代表一笔订单,若出现较大的异常笔数,则可能存在集中刷、乱刷的使用行为。

扫码品规

扫码品规,指每笔订单中包含卷烟品规的数量,若单笔订单中出现较多的品规,SKU 宽度较大,则可能存在集中刷行为。

在线支付

在线支付,指的是消费者主动出示二维码支付的行为,若当日在线支付比例较低,则说明零售户存在不真实扫码的情况。

库存量

库存量,指的是商品发生销售行为后、商品消耗后存储量的变化情况,若商品出现负库存的情况,则可能存在超量销售的情况,目前仅限于对卷烟商品的监控。

集中度

集中度,指的是单日扫码笔数最高的两个时段扫码笔数之和/当日总扫码笔数,目前仅限于对卷烟商品的监控。

3. 样本结构问题

根据实际的业务要求,目前市场的数据采集范围仅限于样本点,总体思路为通过样本点数据估计总体趋势,原则上样本点的结构要求做到各行政区域内档位、业态、城乡的全覆盖,且要求符合各层级(档位+业态+城乡)实际分布,但不同的层级具有不同的经营能力,各层级所需抽样的数量还需要根据各层级的经营能力判断,层级结构如下:

区域

行政区划分,如芙蓉区、天心区等。

档位

共有 30 个等级,主要用于衡量零售户的经营水平,级别越高,经营水平越强。

业态

区分零售户的经营业态,主要由超市、烟酒店、便利店、食杂店等组成,相同档位内不同业态的经营能力也不一样,例如同档位内超市与烟酒店的经营能力有显著的差异。

城乡

区分零售户所处区域特征,共有 2 个属性维度,城市与乡村,城乡属性的零售户经营能力普遍高于乡村属性。

4. 样本库管理问题

随着终端质量的不断提高,未来样本库的更新需要具备一套自动化的新老轮换机制,来实现对样本库的动态管理,对于无法达到样本点要求的老采集点,原则上要执行置换过程,置换的过程需要有量化支持,有理可依、有数可查。置换原则通过业务探索,总结如下:

  • 新老采集点置换时必须满足同类别置换的原则;
  • 新采集点客户需配合程度较好,便于管理;
  • 新采集点需尽量避开偏远地区和文化水平不高的客户;
  • 新采集点需经营稳定,短期内无需再次置换;
  • 新采集点不要选择近期可能出现较大档位变化的客户;
  • 样本置换须报信息管理员做好备案工作。

四、解决方案

基于 3σ 模型与专家业务决策的数据质量分析体系

针对终端机数据质量评估问题,在统计学方面本质上属于对离群值的判断。在终端机扫码销售的过程中,大部分出现异常的扫码行为均可量化与转化为统计学上对离群值的判断。总结为基于概率分布模型进行离群值的判断,其基本思想是根据数据集的特性,对给定的数据集假设一个概率分布模型,然后在某个显著水平上,确定数据集的拒绝域或者接受域,拒绝域是出现概率很小的区间,如果数据落在此区间,则可判定为异常数据。

本次研究中,在假设整体属于正态分布的情况下,对指标规则的制定主要应用 3 倍均值标准差(3σ)进行离群值的判断。根据大数定律和中心极限定理可知,当样本数据足够多时,其分布趋于正态分布。在正态分布的基础上,常用异常值被定义为一组结果值中与平均值的偏差超过三倍标准差的值,理论分布图如下图所示。

除了在统计学层面外,在设计终端数据质量评估体系的过程中,更应该注意专家业务决策的经验性指导,不可忽视其关键作用。

总结以上方法论,项目实施过程中我们提出了日常监控 + 月度评分与分类的终端数据质量评估体系,其中日常监控的作用在于:

  • 观察零售户在使用终端机的过程中具体会有哪些异常的扫码行为,在数据层面挖掘零售户群体在使用终端的过程中造成数据质量低下的核心原因,制定宏观策略;
  • 辅助客户经理在市场走访过程中针对性地进行终端机业务指导,对每日产生的终端使用预警进行排查,引导零售户正确使用终端机,逐步将“数据池”清洗干净;
  • 为月度样本点的评估提供日度数据参考;
  • 实现指标参数环境自适应调节机制,不同区域、层级各自对应的规则参数均不同,形成差异化数据质量判断。

在日常监控环节,项目主要形成的规则体系如下:

(注:同群体 = 同层级)

样本点分层随机抽样法之“奈曼分配”

针对区域+档位+业态+城乡组成的样本点层级结构要求,经过项目组分析,其理论上属于分层抽样的范畴,分层抽样又称分类抽样或类型抽样,将总体划分为若干个同质层,再在各层内随机抽样或机械抽样。分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性,各层样本数的确定方法有 3 种:

  • 分层定比法,即各层样本数与该层总体数的比值相等,例如,样本大小 n=50,总体 N=500,则 n/N=0.1 即为样本比例,每层均按这个比例确定该层样本数;
  • 奈曼法,即各层应抽样本数与该层总体数及其标准差的积成正比;
  • 非比例分配法,当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。

因各个层级之间的差异性较大,主要体现在卷烟订单(进货)数量方面,若要较为真实地接近各层级的经营水平,需要引入订单(进货)因素,通过结合奈曼分配法,基于层级群体的订单(进货)量的标准差与客户数确定每层比例,最后根据所制定样本量合理分配各层级中抽样数量,项目实施过程中,还引入了终端数据质量评分体系,在奈曼分配法的基础上,按数据质量分数的高低择优抽样入库,样本点筛选逻辑如下:

样本库量化管理机制

针对样本库量化管理方面的需求,本文采用系统日常评价+月度质量评估的机制对所有在线正常运行的云 pos 终端机进行量化评分,评分的高低结合奈曼法进行样本点的动态管理。

在日常监控评估环节,本文采用满分扣分制度,每日初始满分为 100 分,若当日触发不同的监控规则扣除规则对应的分数,分数扣除越多,则当日的数据越低,分数越低则影响日均评分成绩。

在月度量化评分环节,则是根据项目要求,按月的时间维度对所有的终端机使用情况进行评分,分数越高,数据质量越好。

实现对终端机“平时成绩”与“月度期末考试”的评价体系搭建后,系统将在每月初通过综合评定对终端机使用情况进行量化,其中,日常监控评分权重为 0.6,月度评估评分权重为 0.4,两者综合分数高者所划分的群体等级越高,等级越高代表终端使用质量越高,其数据利用价值越高,便越接近真实的市场销售行为。

在实际应用中,为了加强样本库的稳定性,对一类、二类样本点设置了容错保护机制,具体体现为基础加分与进退规则的差异化,避免大规模样本点置换现象出现。

月度量化评分规则体系如下:

等级划分规则与等级进退原则如下:

五、实际应用成果

1. 应用结果

日常监控方面,规则部署完成系统化开发,实现了在 PC 端、移动端对零售户终端机的规则监控,T-1 日推送异常信息,帮助客户经理及时介入。

PC 端应用成果:

移动端应用成果:

形成了监控→预警→推送→核验→反馈的业务闭环,为客户经理提供了移动办公的条件。

数据质量提升效果:

系统于 2021 年 3 月在某市局上线,通过现行的规则监控与线下终端引导,零售户月度人均规则数逐月下降,特别是在 5 月推进“终端全优化”专项行动后,终端机配套数量不断提升的背景下,人均命中规则数降低至今年最低点,说明零售户整体的终端机扫码质量在显著提升。

样本点遴选结果:

根据样本点占总体 1%的要求,实现了 4 个试点区域的样本点的筛选工作,并实现了系统化的开发。

PC 端样本点管理界面:

2. 未来可研究方向

未来随着市场信息采集数据质量评估体系的实施,烟草公司对于端数据的管理逐渐趋向规范化,整体终端的建设发展向高水准迈进,由此产生的数据将为卷烟市场研究甚至是非烟商品的研究提供可靠的数据支持,如何将高质量的市场信息采集数据利用起来,是未来烟草行业进行深度市场化改革的探索道路之一,本文就以下四大研究方向进行了探索:

2.1 以采集端为基础建设大数据营销体系

在相关理论研究中,构建卷烟市场大数据营销体系共需包括三个平台,即采集、分析和应用平台。采集端是分析与应用端的基础,在完善采集端的建设后,由此基础上可进行整合建立起包括数据采集系统、数据分析系统、应用系统的烟草大数据营销体系。

数据采集系统

企业通过建立详尽的客户基础信息档案,包括内部订单与外部零售的数据资源,形成真正的卷烟大数据并进行数据储备。

数据分析系统

应用主体是卷烟企业,构建数据科学的分析模型,深入挖掘有价值的数据,提炼出对能够促进市场、品牌、终端建设有价值的信息知识。

数据应用系统

应用主体是企业营销决策者,在数据科学所获得的信息知识下进行营销决策,营销决策直达卷烟市场,营销决策所带来的市场效应将由采集系统供应数据、分析系统提供结果。

以上三者之间形成一种相互联系、相互贯通的数据闭环关系,真正实现数据驱动模式的市场化改革。

2.2 以市场消费数据为基础进行市场供需关系预测

通过市场采集数据对市场状态进行科学判断,首先要搭建市场量化指标,如基于售价数据的指标:零售与市场价格指数、条包零售价吻合率等;基于库存数据的指标:社会库存、社会存销比等;基于销量数据的指标:零售量等。根据历史经验,价格指数与零售量提升、社会存销比趋势下降,就说明市场供需紧张、市场处于空缺状态;反之,则说明货源过剩、供需偏松、市场处于饱和状态。

同时,针对当前卷烟供应计划与订单需求脱节时会导致供需关系背离的情况,还可引入内部订单数据中的卷烟订足率作为辅助指标,最后根据内外部数据,搭建较为真实的市场需求预测模型,相对于纯内部数据时间序列、仅结合外部宏观经济数据的回归模型等,其更能体现真实的市场需求、更具业务解释性、对消费者市场的供需关系预测更为科学准确。

2.3 以市场依据为导向进行品牌生命周期管理

在卷烟市场中,如何准确判断品牌的生命周期、把握品牌发展拐点、准确制定品牌经营策略,是烟草企业一直探索的行业难题。

根据以往资料研究,卷烟企业对于品牌生命周期的判断基本来源于内部的订单数据,对外部的市场消费数据的参考度较低,较容易忽略真实的品牌状况,在未来以市场导向为改革路线的卷烟行业中,市场消费数据对卷烟行业的发展将日益重要。

烟草企业可根据终端数据建立起以市场依据为导向的品牌生命周期管理机制,如依据某一时期内品牌扫码销售数据,确定品牌的上柜率、销售增长率,以此将品牌发展阶段划分为导入、成长、稳定和衰退四个阶段,根据当前所处的阶段,具体分析该阶段品牌的动销率、重购率、断货率等二级指标,同时结合内部订单中重需率确定品牌的健康指数,全面量化品牌的市场健康状态,科学判断品牌生命周期,为品牌的培育、引入、退出提供依据。

2.4 依托终端建设开展个性化客户服务

对零售户开展个性化精准服务是卷烟行业加强终端建设的重点方向,加强终端建设能够有效提升渠道掌控力,对新时代烟草商业企业高质量发展具有重大意义。客户经理可以利用平板电脑、手机等移动终端设备,根据后台海量的终端数据随时了解市场整体趋势及终端零售客户的基本情况,为有针对性经营指导和拜访提供了可能性。

例如,在客户经理拜访时间管理方面,利用现代零售终端经营流水数据,分析出零售户一天不同时段的经营繁忙程度,进而避开繁忙时段科学安排拜访流程;在拜访服务内容管理方面,通过整合自动识别的潜在服务需求、客户直接服务需求等各种信息,将服务需求与营销计划进行匹配,自动生成个性化拜访服务方案,从而在提高服务营销方案制定效率的同时提高其针对性;在非烟商品推荐方面,依据关联规则模型得出强关联商品目录,辅助指导零售户在优化货架摆放、销售结构,提升销售利润率。此外,在完成个性化精准服务后,还可依托终端数据对服务水平进行量化评估,形成良性服务闭环。

参考资料

[1]白明,推动卷烟零售终端转型升级的探索研究,现代营销(下旬刊),2019 年 4 期.

[2]周亮,“大数据”技术在浙江烟草新时期的应用[J].硅谷,2013(19).

[3]刘洋,数据驱动创新大数据时代的卷烟营销思考[J].信息与电脑(理论版)2013,(7).

[4]邹亮,卷烟零售终端价值评价体系研究,《中国烟草学报》,2013 年 4 期。

[5]许译文,卷烟零售终端建设理论模型初探[J].新西部.2015(12):69.

[6]郭飞,构建复合型卷烟零售终端的路径选择[J].重庆与世界,2016(11):81-83.

[7]刘金娣,李莉莉,高静,卢睿,异常值检验方法的比较分析[J].青岛大学学报(自然科学版)第 30 卷第 2 期 2017 年 5 月.

原文链接:百分点数据科学实验室:烟草行业市场信息采集数据质量评估体系研究探索

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/963bbbb52963ac02336873ea5
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券