首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python数据分析综合小练习:销售数据分析

有这样一个小小的练习题:

卖电子商品的老板,每天记录了自己卖出的U盘,电脑支架,插座,电池,音箱,鼠标,usb数据线,手机充电线等数量,客户的需求是一方面,也可以通过客户购买关联性比较强的商品进行引导,以提高销量,比如:客户买了无线鼠标,你可以向他卖电池。

有些是可以通过我们的常识判断,但是怎么通过数据,客观地发现商品之间有没有相关性。机器学习可以通过关联规则Apriori算法挖掘,没有机器学习算法基础,怎么用统计学知识解决,本案例分享给大家。

目 录

1、问题描述

2、导入外部包,加载数据

3、相关性分析

4、绘图展示

1、问题描述

(1)使用pandas读取文件"销售记录.xlsx"中的数据;

(2)对各产品之间的销售情况做相关分析;

(3)找出相关系数最大的两类产品;

(4)画出相关系数最大的两类产品销售情况的拆线图(一张图内,不同颜色);

(5)实验报告内容包括:问题描述、代码、运行结果以及实验感想;

2、导入外部包,加载数据

加载数据

可以按到,数据总共29行,每天一行,11列,包括10中在售商品。数据很整齐,没有缺失,全部是数值型。

3、相关性分析

相关性,可以通过计算两个变量之间的相关性系数分析,两个变量之间的协方差和标准差的商。X和Y的相关性系数,数学计算公式如下:

相关系数,是一个介于1和-1之间的值,其中,1表示变量完全正相关,0表示无关,-1表示完全负相关:

0.8-1.0 极强相关

0.6-0.8 强相关

0.4-0.6 中等程度相关

0.2-0.4 弱相关

0.0-0.2 极弱相关或无相关

而Python有专门的函数计算相关性系数corr()函数。

相关性系数绘制的热力图如下,颜色越深表示相关性越强:

可以看出,相关性最强的是“鼠标”和“键盘”,中等程度相关,数据量如果足够大,可能更加准确。

如果不靠肉眼看,通过程序,如何选出相关性最强的产品?

如上,我们通过处理,同样得到,相关性最强的是“鼠标”和“键盘”。

4、绘图展示

通过上面相关性系数的计算,得出相关性最强的是“鼠标”和“键盘”,但是形象直观的呈现出来,两种产品销量是不是相关,需要绘制折线图。

通过绘制的折线图可以看出,两种产品的销量基本是同步变化的,一种增长(下降)的时候另一种也增长(下降)。

本例的数据仅有29条,如果增加数据量(样本数量),可能更具说服力。也符合业务场景,鼠标和键盘捆绑销售,或者买了键盘打折促销鼠标。^!^

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200112A0JYZY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券