主题 数据探索
接着上一节的内容~
二、数据特征分析
5. 相关性分析
(1)直接描述散点图
从散点图可以比较直观地看书两个变量的相关性。(一般分为完全正线性相关、完全负线性相关、非线性相关、正线性相关、负线性相关、不相关)
(2)绘制散点图矩阵
可对多个变量同时进行相关关系的考察
(3)计算相关系数
这里的相关系数有很多,如Pearson相关系数、spearman相关系数、判定系数等等
三、python主要数据探索函数
python中用于数据探索的库主要是pandas和matplotlib,而pandas提供大量的函数,也作为重点来进行介绍
1. 基本统计特征函数(均属pandas)
(1)sum(),计算数据样本的总和(按列计算)
(2)mean(),计算算数平均数
(3)var(),计算方差
(4)std(),计算标准差
(5)corr(),计算Pearson相关系数
(6)cov(),计算协方差矩阵
(7)skew(),计算偏度
(8)kurt(),计算峰度
(9)describe(),给出样本的基本描述
2. 统计作图函数
(1)plot(),绘制线性二维图,matplotlib/pandas
使用格式:plt.plot(x,y,S)
字符串S指定绘制图形的类型、样式和颜色,常用的有:‘b’为蓝色、‘r’为红色、‘g’为绿色、‘o’为圆圈、‘+’为加号标记、‘-’为实线、‘--’为虚线
(2)pie(),绘制饼形图,matplotlib/pandas
(3)hist(),绘制二维条形直方图,matplotlib/pandas
(4)boxplot(),绘制样本数据的箱形图,pandas
(5)plot(logy=true),绘制y轴的对数图形,pandas
(6)plot(yerr=error),绘制误差条形图,pandas
—End—
”欢迎关注,嘻嘻~”
领取专属 10元无门槛券
私享最新 技术干货