前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关

集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关

作者头像
全栈程序员站长
发布于 2022-09-30 08:27:01
发布于 2022-09-30 08:27:01
1.9K0
举报

大家好,又见面了,我是你们的朋友全栈君。

1 案例:计算出下面数据中的均值、众数、中位数

超市一天收款账单的金额分别为: ​ 21,100,30,25,26,27,26,10

均值:33.125

众数:26

中位数:26

计算有限个数的数据的中位数的方法是:把所有的同类数据按照大小的顺序排列。 如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这群数据的中位数。

2 均值、众数、中位数对比

2.1 均值
  • 优点:充分利用所有数据,适用性强
  • 缺点:容易受到极端值的影响【上面例子中的100就可以理解为极端值,在数据处理中这类值需要注意,可能是异常值】
2.2 中位数
  • 优点:不受极端值影响
  • 缺点:缺乏敏感性【只关注中间的数字】
2.3 众数
  • 优点:代表性好
  • 缺点:缺乏唯一性【有时可能存在多个众数】

3 偏态

3.1 概率密度函数

这里加入概率密度函数相关概念有利于理解下面的偏态分布。

3.2 偏态分布

偏态分布为统计学概念,即统计数据峰值与平均值不相等的频率分布。根据峰值小于或大于平均值可分为正偏函数和负偏函数,其偏离的程度可用偏态系数刻画.

左偏分布也被称为负偏态,右偏分布也会称为正偏态。

用均值、中位数、众数三者的位置关系判定和查看

  • 中位数查看
    • 将数据一分为二(中位数的位置),哪边数据少,就是往哪边偏。
  • 众数描述
    • 众数位置哪边尾巴长,就是往哪边偏。
  • 数据分布往哪边偏,均值被拉往哪边

偏度本身是相对于均值左右数据的多少。这里拿右偏分布举例,也就是说数据在均值左侧的数量较多,**所以为了达到所有数据于均值之差和为0,应该存在较大的数与之平衡,所有分布图里有一个很长的右端的拖尾(就是右端必须存在很大的值)。既然均值左侧的数比较多,对比中位数左右两侧数一样多,则均值必在中位数的右侧(即这样围成面积才大于0.5)。**另外,右偏的图像围成面积为0.5的分界点应该在峰值点的右侧,所以中位数大于众数。所以就有众小于中小于均。 作者:雪绒花与蚊子 链接:https://www.jianshu.com/p/a558a3f4b84a 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

3.3 偏度计算
3.3 峰度

peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。

计算:

峰度定义为四阶标准矩,可以看出来和上面偏度的定义非常的像,只不过前者是三阶的。

相关链接:

1左偏和右偏 – 简书

2偏态 – 搜索结果 – 知乎 (zhihu.com)

3 概率统计-方差与正态分布(高斯分布)_Hello_Ray的博客-CSDN博客_正态分布方差

4 一文搞懂“正态分布”所有需要的知识点 – 知乎 (zhihu.com)

5 偏度和峰度的计算 – 小舔哥 – 博客园 (cnblogs.com)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/192754.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年9月16日 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
第一周:数据的描述性统计
平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成,忙的时候采用懒人模式。作业的日期、质量等无法固定,可能会迟到,但不会缺席。
数据处理与分析
2019/07/31
1K0
第一周:数据的描述性统计
机器学习概率基础:除了偏度、峰度还有矩量母函数
本篇介绍随机变量和概率分布的基本概念,以及有关概率分布的一些简单统计量,它们构成了概率和统计的基础知识。
Python数据科学
2021/09/08
1.2K0
机器学习概率基础:除了偏度、峰度还有矩量母函数
python求解中位数、均值、众数
中位数(又称中值,英语:Median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数。
全栈程序员站长
2022/09/30
3K0
python求解中位数、均值、众数
统计学小抄:常用术语和基本概念小结
描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据,如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住,描述性统计可以在样本和总体数据上执行,但并不会使用总体数据。
deephub
2022/06/04
8850
统计学小抄:常用术语和基本概念小结
机器学习数学基础:数理统计与描述性统计
所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。
Datawhale
2020/07/02
1.8K0
机器学习数学基础:数理统计与描述性统计
用python重温统计学基础:描述性统计分析
描述性统计分析(Description Statistics)是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。描述性统计分析分为集中趋势分析和离中趋势分析。
朱小五
2019/11/26
1.6K0
统计学小抄:常用术语和基本概念小结
来源:DeepHub IMBA本文约2200字,建议阅读5分钟统计学是涉及数据的收集,组织,分析,解释和呈现的学科。 统计的类型 1) 描述性统计 描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据,如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住,描述性统计可以在样本和总体数据上执行,但并不会使用总体数据。 2) 推论统计 从总体数据中提取一些数据样本,然后从这些数据样本中,推断一些东西(结论)。
数据派THU
2022/05/27
8620
统计学小抄:常用术语和基本概念小结
偏度(skewness)和峰度(kurtosis)
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。
全栈程序员站长
2022/11/03
1.3K0
机器学习基础 - 偏度、正态化以及 Box-Cox 变换
对于数据挖掘、机器学习中的很多算法,往往会假设变量服从正态分布。例如,在许多统计技术中,假定误差是正态分布的。这个假设使得能够构建置信区间并进行假设检验。因此,在数据预处理阶段会查看目标变量以及各个特征是否服从或接近正态分布,如果偏离就通过一定变换将该数据的分布正态化。
Ai学习的老章
2021/03/24
5.5K2
机器学习基础 - 偏度、正态化以及 Box-Cox 变换
偏态分布学习笔记(期望,中位数,众数)
一:偏态函数分类 (1)正态(期望=中位数=众数) (2)正偏态:也称为右偏态(期望>中位数>众数),偏向数据小的 (3)负偏态:也称左偏态 (期望<中位数<众数),偏向数据大的
全栈程序员站长
2022/10/05
5.2K0
偏态分布学习笔记(期望,中位数,众数)
数据的描述性统计与python实现
mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
用户7886150
2020/12/24
8160
R语言入门之偏度(skewness)与峰度(kurtosis)
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。在定义上,偏度是样本的三阶标准化矩:
生信与临床
2020/08/06
15.9K0
R语言入门之偏度(skewness)与峰度(kurtosis)
正态qq图怎么判断分布_怎么判断是不是QQ小号
QQ图通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况。[1]
全栈程序员站长
2022/09/22
3.1K0
正态qq图怎么判断分布_怎么判断是不是QQ小号
高中就开始学的正态分布,原来如此重要
机器学习的世界是以概率分布为中心的,而概率分布的核心是正态分布。本文说明了什么是正态分布,以及为什么正态分布的使用如此广泛,尤其是对数据科学家和机器学习专家来说。
机器之心
2019/07/12
6070
高中就开始学的正态分布,原来如此重要
数据科学统计学:什么是偏度?
偏度的概念已融入我们的思维方式。当我们看到一个图像时,我们的大脑会直观地分辨出图表中的模式。
磐创AI
2020/07/31
1.7K0
数据科学统计学:什么是偏度?
数据分析该分析什么?
总第56篇 很多时候我们走的走的就会忘记当初为什么而出发。 我们有的时候在拿到数据以后不知道该怎么进行分析,该去分析什么,其实这些在我们以前的统计学中都学过。 不管是用Python还是R,其实和用Excel一样,只不过现在之所以用Python、R是因为大数据时代么,数据太多,Excel的处理能力跟不上,但是这些都只是一个工具而已,核心还是围绕统计学不变的。 今天就来聊聊我们该从哪些方向去分析(描述)数据。 01|总规模度量: 总量指标又称统计绝对数,是反映某一数据的整体规模大小,总量多少的指标。他是对原
张俊红
2018/04/11
1.2K0
数据分析该分析什么?
平均数、中位数和众数及它们之间的关系
平均数(Mean),或均值是统计中的一个重要概念。是集中趋势的最常用测度值,目的是确定一组数据的均衡点。这里的平均数是指算术平均数,即一组数据的和除以这组数据的个数所得的平均值,也叫算术平均值。
全栈程序员站长
2022/09/06
2K0
平均数、中位数和众数及它们之间的关系
【R系列】概率基础和R语言
R语言是统计语言,概率又是统计的基础,所以可以想到,R语言必然要从底层API上提供完整、方便、易用的概率计算的函数。让R语言帮我们学好概率的基础课。 1. 随机变量 · 什么是随机变量? · 离散型随机变量 · 连续型随机变量 1). 什么是随机变量? 随机变量(random variable)表示随机现象各种结果的实值函数。随机变量是定义在样本空间S上,取值在实数载上的函数,由于它的自变量是随机试验的结果,而随机实验结果的出现具有随机性,因此,随机变量的取值具有一定的随机性。 R程序:生成一个在(0,1,
小莹莹
2018/04/20
2.3K0
【R系列】概率基础和R语言
中位数和众数的定义_众数是什么意思中位数又是什么意思
在初中数学课本中,我们学习了平均数,但是平均数与中位数、众数有是关系呐,下面我就为大家总结一下:
全栈程序员站长
2022/09/30
1.6K0
中位数和众数的定义_众数是什么意思中位数又是什么意思
不得不学的统计学基础知识(一)
统计学是数据分析必须掌握的基础知识,它是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外,因此扎实的统计学基础是一个优秀的数据分析师必备的技能。统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识,对于具体的知识点,楼主就不一一介绍了,感兴趣的同学请参考书籍《深入浅出统计学》、《统计学:从数据到结论》,今天的分享主要会选取统计学中几个容易混淆的、比较重要的知识点进行分享。
数据万花筒
2020/12/30
3K0
不得不学的统计学基础知识(一)
相关推荐
第一周:数据的描述性统计
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档