教程地址:http://www.showmeai.tech/tutorials/33
本文地址:http://www.showmeai.tech/article-detail/135
声明:版权所有,转载请联系平台与作者并注明出处
有人把数据分析的核心总结为六字,即对比、细分、溯源,也被数据分析的三板斧,支撑数据分析的核心应用,具体来说:
对比:成对地比较。
细分:对数据增加维度、降低粒度地分析。
溯源:在对比、细分锁定到具体维度和粒度之后,依然没有结论,那就需要查看原始数据,洞察数据,从数据中寻找灵感。
数据放在那里是没有意义的,只有将数据进行比较,才体现出数据分析的价值。对比其实很简单,就是把A和B比较。但是,没有可对比性的对比一定是耍流氓。
指标的可对比性,可以从四个“一致”原则来评估:对象一致、时间属性一致、定义与算法一致、数据源一致。
(1)比价对象一致
比较的对象一致。对象一致是可比的最基本原则,番茄的销量和猪的销量是不可比的,这其实就是因为比较的对象不一致。
(2)时间属性一致
指标的时间属性一致。 时间属性比较特殊,对象所在的季节、月份等时间属性要有可比性。例如,一家便利店冬季雪糕的销量,和夏季没有可比性,因为对象的时间属性不同,但做销量的同比是可以的。
(3)定义和算法一致
对分析对象的定义和计算方法一致。举个例子,青年的定义,中国国家统计局(15-34周岁)和中国共青团(14-28周岁)不同,当统计青年人数占总人数的比例时,二者计算的指标数据,肯定是不同的。
(4)数据源一致
统计的数据样本一致。
在做数据对比的相关分析时,要记住三个“要”:对比要可比、差异要显著、描述要全面。
(1)对比要可比
对比分析要有可比性。
(2)差异要显著
组间差异要显著,组内差异要细微。常用的显著性检验有T检验和方差分析。
(3)描述要全面
当刻画一组数据时,不仅要描述这组数据的一般水平(均值),还要考虑到这组数据的波动水平。如果波动很大,一般水平对数据总体的代表性就会很差。只考虑一般水平而不考虑波动和差异,会使数据的可信度大大缩水。
通过增加维度和降低粒度来细分数据,深挖数据,揭示数据中潜藏的规律。
一个维度是数据表的一列。通常情况下,维度是指定性数据。例如,产品提供的服务的类型、用户分布的地域等。在分析数据时,增加分析的维度,改变看待问题的视角,能够在更细分的级别上分析数据,洞察到更多的知识,增加数据分析的深度。
例如,新用户的留存率,通过增加获客来源的维度,可以监控各个来源的新用户的留存率,把有限的经费使用到真正可以带来有效转化的地方。
粒度是数据的聚合程度。颗粒度最小的数据,是没有聚合的原始数据。
举个例子,每日数据是原始数据,其粒度是日,数据的数量巨大;而每周的统计数据是对日数据的聚合,其粒度是周,数据的数量变成原来的1/7。
溯源,就是到细节数据中去,查看原始数据,反思用户的行为。在做数据分析时,一定要明白你分析得数据是二手的,还是一手的。
本教程系列的代码可以在ShowMeAI对应的github中下载,可本地python环境运行,能访问国外网站的宝宝也可以直接借助google colab一键运行与交互操作学习哦!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有