与Hypothesis testing等
◆ 其大多被封装在orq.apache spark.mllib.stat._ 中
1.1 基础统计学知识
1.1.1 常用的统计学知识
◆ 描述性统计
平均数...,方差,众数,中位数…
◆ 相关性度量
spark 提供了皮尔逊和斯皮尔曼相关系数,反映变量间相关关系密切程度
◆ 假设检验
根据一定假设条件,由样本推断总体的一种统计学方法,spark提供了皮尔森卡方检测...基本思路是先提出假设(虚无假设),使用统计学方法进行计算,根据计算结果判断是否拒绝假设
◆ 假设检验的统计方法有很多,如卡方检验,T检验等
◆ spark实现的是皮尔森卡方检验,它可以实现适配度检测和独立性检测...4.2 皮尔森卡方检验
最常用的卡方检验,可以分为适配度检验和独立性检验
◆ 适配度检验:验证观察值的次数分配与理论值是否相等
◆ 独立性检验:两个变量抽样到的观察值是否相互独立
4.3 实战 : 判断性别与左撇子是否存在关系...导入数据
计算
否定了假设检验,所以性别与左撇子是有关的!