本文是“思路比代码重要”系列的第4篇
单维度分类推文的方法总结部分
单维度分类推文的结论汇总部分
单维度分类推文中,我们切分了在线时长和车费收入这两个指标,并将他们分别考量。最后得出该份数据中司机们工作强度和日收入层级的情况。
有没有分析方法是能够将两者联合起来考虑的呢?得出的结论可以增加“之间”二字。比如:在线时长与日收入之间的关系;完成订单数与日收入的关系...
这里肯定有不少读者会说:“简单啊做个相关系数热力图不就行了?”
热力图红圈中几个较高的数字:
那红圈里绿色方框这三个数字该怎么解释???
绿色这几个数字说明在线时间长也不代表司机能够获得收益和接到订单。这与网约车平台的初衷其实并不相符(鼓励司机入驻,在线时长多些,能多接点单,这样顾客的黏性也高些,最后平台和司机都能够赚更多的钱)
这个时候,司机们肯定喜欢直接把原因归因到公司上,毕竟推卸责任什么的最爽了。但我们作为数据分析人员来说,我们还得深入分析到底是平台出现了问题导致这样的现象还是司机自己本身出现了问题,不要过早的盲目归因。(毕竟上一篇单维度分析时我们已经发现有司机存在虚假运力的情况)
| 本文数据代码可以在后台回复「两维分类」获取
01
分组对比
既然本文是两维度分类,那我们便先选取两个指标,从他们“之间”的关系发现潜在的问题。这里我们选择了相关系数0.42所在的在线时长和完成订单数这两个指标。
按常理(伏笔),完成订单数、订单实际总公里数、车费收入三者之间的关系如下:
所以这里我们分别将在线时长和完成订单数这两个指标进行分组,而后一起考量,探寻两者之间的关系。
pandas describe 数据集后,我们制定了两者的划分层级和对应标签
将两个类别变量综合起来考量时,建议优先考虑 pandas 的列联表分析(cross table)或数据透视表(pivot table)
02
“异常”司机处理
(每一列的比例和为 1。中间的百分比是指该在线时长内接到的订单数分类下的司机数量所占该在线时长分类下所有司机数的比例,比如56%:在线时长在0-4这个范围内,接到1-5单的司机比例占在线时长0-4的所有司机数的 56%)
粗略看来,平台的政策还比较公平,司机在线越久,接单越多。但值得注意的是,极端数值也出现在这个列联表中。
我们希望平台能鼓励司机入驻,在线时长多些,能多接点单,这样顾客的黏性也高些,最后平台和司机都能够赚更多的钱。但总有不符合我们初衷的情况发生?
至于为什么会想到长途单和高峰期特定路段跑短途这两个特例类。这个就是具体场景具体业务了,不同行业具体分析就行,这里举例只是为了分析。
所以我们需要把这两类找出来,它们是正常的业务形态,剩下的才算是疑似有问题的司机。这里我们先将司机类型划分为4类(自由组合:在线时长两类×订单数分类两类=4类)
根据上图的两条绿线,这里的在线时长我们以8小时作为分界,订单数分类以15单作为分类。
得出在线时长与订单数组合的四种情况的人数占比后,我们需要剔除红框中的“异常司机”
那么问题又来了,里程数多还是少,有没有明确的标准?(再次强调:数据加标准才等于结论)
查阅资料显示(笔者在深圳),2019年深圳网约车日均订单约为9.3单,日均行驶里程约为84.0公里,也就是说,一单平均9公里。这样一来,我们将订单数×9,大于它的算里程数多,小于的算少。
03
深入细分
这里我们对在多订少和在少订少这两类再多做“订单实际总公里数”这个维度的切分,并求解每一类型的司机人数占比。
先看大问题,再看小问题(先抓大后抓小),这里都只是一天的数据,对此,我们已经可以提出我们初步的猜想
这里总结一下我们上阶段的分析
我们绘制热力图之后,通过观察相关系数,并结合业务背景,发现了潜在问题,之后用两维度分类的方法将能够反映问题的指标结合起来综合考量,最后得出我们自己的猜想与假设。接下来就是获取更多的数据来验证我们的假设
后续的内容会越来越深入有趣和实用,敬请期待~