有这样一个小小的练习题:
卖电子商品的老板,每天记录了自己卖出的U盘,电脑支架,插座,电池,音箱,鼠标,usb数据线,手机充电线等数量,客户的需求是一方面,也可以通过客户购买关联性比较强的商品进行引导,以提高销量,比如:客户买了无线鼠标,你可以向他卖电池。
有些是可以通过我们的常识判断,但是怎么通过数据,客观地发现商品之间有没有相关性。机器学习可以通过关联规则Apriori算法挖掘,没有机器学习算法基础,怎么用统计学知识解决,本案例分享给大家。
目 录
1、问题描述
2、导入外部包,加载数据
3、相关性分析
4、绘图展示
1、问题描述
(1)使用pandas读取文件"销售记录.xlsx"中的数据;
(2)对各产品之间的销售情况做相关分析;
(3)找出相关系数最大的两类产品;
(4)画出相关系数最大的两类产品销售情况的拆线图(一张图内,不同颜色);
(5)实验报告内容包括:问题描述、代码、运行结果以及实验感想;
2、导入外部包,加载数据
加载数据
可以按到,数据总共29行,每天一行,11列,包括10中在售商品。数据很整齐,没有缺失,全部是数值型。
3、相关性分析
相关性,可以通过计算两个变量之间的相关性系数分析,两个变量之间的协方差和标准差的商。X和Y的相关性系数,数学计算公式如下:
相关系数,是一个介于1和-1之间的值,其中,1表示变量完全正相关,0表示无关,-1表示完全负相关:
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
而Python有专门的函数计算相关性系数corr()函数。
相关性系数绘制的热力图如下,颜色越深表示相关性越强:
可以看出,相关性最强的是“鼠标”和“键盘”,中等程度相关,数据量如果足够大,可能更加准确。
如果不靠肉眼看,通过程序,如何选出相关性最强的产品?
如上,我们通过处理,同样得到,相关性最强的是“鼠标”和“键盘”。
4、绘图展示
通过上面相关性系数的计算,得出相关性最强的是“鼠标”和“键盘”,但是形象直观的呈现出来,两种产品销量是不是相关,需要绘制折线图。
通过绘制的折线图可以看出,两种产品的销量基本是同步变化的,一种增长(下降)的时候另一种也增长(下降)。
本例的数据仅有29条,如果增加数据量(样本数量),可能更具说服力。也符合业务场景,鼠标和键盘捆绑销售,或者买了键盘打折促销鼠标。^!^
领取专属 10元无门槛券
私享最新 技术干货