前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >统计学如何用少量数据概括数据(相关概念)

统计学如何用少量数据概括数据(相关概念)

作者头像
用户3003813
发布于 2018-09-06 06:08:09
发布于 2018-09-06 06:08:09
1.2K0
举报
文章被收录于专栏:个人分享个人分享

用少量数据来概括大量数字是日常生活中常见的。那么可以用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic),那么样本的随机性决定了统计量的随机性。

数据的"位置"

比如说哪个地方穷,那个地方富,哪个国家人高,哪个国家人矮,这样不是说一个地方的所有人都比另一个地方的所有人富有或高,仅仅忽略了"平均起来"这样的字眼。实际上,这种说法是关于数据中某变量观测值的"中心位置",或者数据分布的中心(center或center tendency)的某种表述。这种与"位置"的有关统计量就称为位置统计量(location statistic)。

最常用的位置统计量就是小学学到的平均值,在统计学中叫做"均值",严格地说叫做样本平均值(sample mean)。

数据的"尺度"

是否"均"是由尺度统计量(scale statistic)来描述的。尺度统计量是描述数据散布,即描述集中于分散程度或变化的度量。一般来说,数据越分散,尺度统计量的值越大。

最简单的尺度统计量就是极差(range)。极差就是极大值和极小值之间的差。

另一个常用的尺度统计量为(样本)标准差(standard deviation)。它度量样本中各个数值到均值的距离的一种平均。简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。标准差实际上是方差的平方根。样本方差是由各观测值到均值距离的平方和除以减去1的样本量。比如:如果样本中的观测值为X1,X2,X3,X4....Xn,则样本方差为:

那么标准差就为样本方差的平方根:

显然如果标准差越大,数据中的观测值就越分散,小的标准值就意味着数据很集中。

数据的标准得分

比如,数据给出两个版的同一们课的成绩,假定两个班水平类似,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样。例如,1班的均值和标准差分别为78.53和9.43,而2班的均值和标准差分别为70.19和7.00。那么得到90分的一班的yangsy是不是就比2班的xiaojingjing成绩更好呢?怎样比较菜合理呢?

虽然这种均值和标准差的值不能够直接比较,但是可以把它们标准化,然后再比较标准化的数据。一个标准化的方法是把某样本原始观测值(得分)和该样本均值之差除以该样本的标准差,得到的度量成为标准得分(standard score)即,某观测值Xi的标准得分Zi定义为:  z=(x- EX)/σ     

转换成相应的标准得分,就可以进行比较了。那么在上述例子中yangsy的得分(90-78.53)/9.43 = 1.22 ,而xiaojingjing的标准得分为(82 - 70.19)/7 = 1.69。所以xiaojingjing的分数应该优于yangsy。

当然,在应用一些统计方法时,有时的确需要对数据做标准化或其他变换,但这些都不是随意的,都有某些确定的理论基础和实践目的。

众数、中位数、平均值的联系与区别:

1、平均值是通过计算得到的,因此它会因每一个数据的变化而变化。 2、中位数是通过排序得到的,它不受最大、最小两个极端数值的影响.中位数在一定程度上综合了平均数和中位数的优点,具有比较好的代表性。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。另外,因中位数在一组数据的数值排序中处中间的位置, 3、众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最满意”等,都与众数有关系,它反映了一种最普遍的倾向.

平均数、中位数和众数它们都有各自的的优缺点. 平均数:(1)需要全组所有数据来计算;             (2)易受数据中极端数值的影响. 中位数:(1)仅需把数据按顺序排列后即可确定;             (2)不易受数据中极端数值的影响.   众数:(1)通过计数得到;          (2)不易受数据中极端数值的影响

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016-01-29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
第一周:数据的描述性统计
平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成,忙的时候采用懒人模式。作业的日期、质量等无法固定,可能会迟到,但不会缺席。
数据处理与分析
2019/07/31
9830
第一周:数据的描述性统计
统计学最重要的10个概念【附Pyhon代码解析】
平均值是一组数据的算术平均数,计算方法是将所有数值相加后除以数据的总数。它是最常用的集中趋势度量,但容易受极端值影响。
统计学家
2024/09/12
1590
统计学最重要的10个概念【附Pyhon代码解析】
数据的描述性统计与python实现
mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
用户7886150
2020/12/24
7800
python数据分析——在数据分析中有关概率论的知识
参数和统计量在数据分析中起着至关重要的作用。参数是对总体特征的描述,如均值、方差等,而统计量则是基于样本数据计算得出的,用于估计或推断总体参数的值。
鲜于言悠
2024/03/20
2510
python数据分析——在数据分析中有关概率论的知识
机器学习数学基础:数理统计与描述性统计
所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。
Datawhale
2020/07/02
1.7K0
机器学习数学基础:数理统计与描述性统计
数据挖掘学习小组之(统计学)
首先,要做一件事情首先要搞清楚的是:为什么要这么做?随着年纪越来越大,越来越觉得时间珍贵,所以每一分钟都要用好。而参加这个兴趣小组的原因很简单,想进一步提升自己的能力!
数据处理与分析
2019/07/31
8610
数据挖掘学习小组之(统计学)
超级干货!统计学知识大梳理
道德经云:”道生一,一生二,二生三,三生万物“。学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。
统计学家
2020/02/20
7120
统计学小抄:常用术语和基本概念小结
来源:DeepHub IMBA本文约2200字,建议阅读5分钟统计学是涉及数据的收集,组织,分析,解释和呈现的学科。 统计的类型 1) 描述性统计 描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据,如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住,描述性统计可以在样本和总体数据上执行,但并不会使用总体数据。 2) 推论统计 从总体数据中提取一些数据样本,然后从这些数据样本中,推断一些东西(结论)。
数据派THU
2022/05/27
8110
统计学小抄:常用术语和基本概念小结
干货分享--统计学知识大梳理(第一部分)
道德经云:”道生一,一生二,二生三,三生万物“。学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。
1480
2020/03/05
6930
干货分享--统计学知识大梳理(第一部分)
数据分析师必备的基本统计学知识
数据分析师,无疑是数据时代最耀眼的职业之一,统计学,又是数据分析师必备的基础知识。
1480
2019/07/15
1.3K0
数据分析师必备的基本统计学知识
重温统计学④差异性
箱线图(Box Plot):是由一组数据的最大值(maximum),最小值(minimum),中位数(median),两个四分位数(quartiles)这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
统计学家
2019/04/10
1.2K0
重温统计学④差异性
【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”
事实是否可靠,我们该问谁?我们该如何分析和判断? 平均数在寻找数据典型值方面是一个好手段,但是平均数不能说明一切。平均数能够让你知道数据的中心所在,但若要给数据下结论,尽有均值、中位数、众数还无法提供充足的信息。分析数据的分散性和变异性,可以更好地认识和理解数据。通过各种距和差来度量分散性和变异性。 使用全距区分数据集 平均数往往给出部分信息,它让我们能够确定一批数据的中心,却无法知道数据的变动情况。 通过计算全距(也叫极差),轻易获知数据的分散情况。全距指出数据的扩展范围,计算方法是用数据集中的最大数减去
陆勤_数据人网
2018/02/26
1.5K0
【陆勤笔记】《深入浅出统计学》3分散性与变异性的量度:强大的“距”
图解统计学:一文轻松搞懂基础概率+描述性统计
作 者:hyn, https://zhuanlan.zhihu.com/p/40756359
1480
2021/11/10
1.4K0
利用python回顾统计学中的基础概念(全)
  描述性统计,就是从总体数据中提取变量的主要信息(总和、均值等),从而从总体层面上,对数据进行统计性描述。
朱小五
2020/03/05
1.1K0
Python数据分析之数据探索分析(EDA)
何为EDA,何谓探索性数据分析?英文名为Exploratory Data Analysis,是在你拿到数据集后,并不能预知能从数据集中找到什么,但又需要了解数据的基本情况,为了后续更好地预处理数据、特征工程乃至模型建立。因此探索性数据分析,对了解数据集、了解变量之间对相互关系以及变量与预测值之间的关系尤其重要。
数据STUDIO
2021/06/24
3.9K0
统计学小抄:常用术语和基本概念小结
描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据,如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住,描述性统计可以在样本和总体数据上执行,但并不会使用总体数据。
deephub
2022/06/04
8270
统计学小抄:常用术语和基本概念小结
现代统计学的发展史
「统计」这个名词的意义因人而异,对一般人而言,统计是任何方面专家们用以支持其论点的一大堆数字;对于略具常识的人来讲,这个名词代表用以摘要和解释一堆数据如计算平均数(mean) 与标准差(Standard deviation) 的程序之类的概念。但是对于从事统计工作的人员而言,统计是依小量数据(样本)所提供的资料以估计预测某研究对象如群体的方法。或者更广义地说,统计为面对不定状况制定决策提供方法的科学。
统计学家
2019/07/08
2.3K0
现代统计学的发展史
一些统计学基础知识,Statistics basics
全距:最大值与最小值的差。仅描述数据的宽度,并没有描述数据上界和下届间数据的分布。
小末快跑
2019/07/03
1.1K0
人人都会点数据分析 | 了解统计指标与异常值的简单处理
上一篇文章简单学习了什么是数据,这次来看看什么是统计指标,进一步了解更多数据分析相关的基础知识。
咸鱼学Python
2021/01/26
9490
【独家】考察数据科学家和分析师的41个统计学问题
作者:Dishashree Gupta 翻译:闵黎 卢苗苗 校对:丁楠雅 本文长度为6500字,建议阅读20分钟 本文是Analytics Vidhya所举办的在线统计学测试的原题,有志于成为数据科学家或者数据分析师的同仁可以以这41个问题测试自己的统计学水平。 介绍 统计学是数据科学和任何数据分析的基础。良好的统计学知识可以帮助数据分析师做出正确的商业决策。一方面,描述性统计帮助我们通过数据的集中趋势和方差了解数据及其属性。另一方面,推断性统计帮助我们从给定的数据样本中推断总体的属性。了解描述性和
数据派THU
2018/01/29
1.7K0
【独家】考察数据科学家和分析师的41个统计学问题
推荐阅读
相关推荐
第一周:数据的描述性统计
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文