定义:一组数据向其中心值靠拢的倾向和程度 测度:寻找数据的水平代表值或中心值 常用的测度指标:①均值②中位数③众数
均值的数学表达式
三种测度标准的优缺点:
测度类型 | 优点 | 缺点 |
---|---|---|
均值 | 充分利用所有数据,适用性强 | 容易受到极端值影响 |
中位数 | 不受极端值影响 | 缺乏敏感性 |
众数 | 当数据具有明显的集中趋势时,代表性好,不受极端值影响 | 缺乏唯一性,可能有一个,可能有两个,可能一个都没有 |
偏差 偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
方差
偏态:数据分布的不对称性叫做偏态 偏度系数:对数据分布的不对称性(即偏斜程度)的测度,偏态系数的绝对值越大,偏斜越严重 (左偏分布也称负偏分布:SK<0;对称分布:SK=0;右偏分布:SK>0)
峰度:数据分布的扁平或尖峰程度 峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示 (扁平分布:K<0;尖峰分布:K>0)