首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据科学17 | 统计推断-期望方差和常见概率分布

数据科学17 | 统计推断-期望方差和常见概率分布

作者头像
王诗翔呀
发布于 2020-07-03 08:57:35
发布于 2020-07-03 08:57:35
1.8K00
代码可运行
举报
文章被收录于专栏:优雅R优雅R
运行总次数:0
代码可运行

1. 期望(expectation)

期望是指随机变量试验中每次可能结果的概率乘以其结果的总和。

对于概率质量函数为p(x)的离散随机变量X,期望值为: 。

随机变量的分布的中心就是其均值或期望值。均值改变,分布会如同均值向左或向右移动。统计推断中,用样本均值估计总体分布的均值(期望值),样本量越多,样本均值约接近总体均值。

例:HistData包中的Galton数据集,包括父母和孩子的身高。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(HistData)
head(Galton)
  parent child
1   70.5  61.7
2   68.5  61.7
3   65.5  61.7
4   64.5  61.7
5   64.0  61.7
6   67.5  62.2

#画出小孩身高分布柱状图及密度分布
library(ggplot2)
ggplot(data = Galton, aes(x = child)) +
     geom_histogram(fill = "salmon", 
                    binwidth = 1, aes(y = ..density..), colour = "black") +
     geom_density(size = 2)

展示估计的总体均值mu及均方误差MSE,manipulate包的manipulate函数可进行交互操作。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(manipulate)
myHist <- function(mu){
  g <- ggplot(Galton, aes(x = child))
  g <- g + geom_histogram(fill = "salmon",
                          binwidth=1, aes(y = ..density..), colour = "black") 
  g <- g + geom_density(size = 2)
  g <- g + geom_vline(xintercept = mu, size = 2)
  mse <- round(mean((Galton$child - mu)^2), 3)
  g <- g + labs(title = paste('mu = ', mu, ' MSE = ', mse))
  g
}
manipulate(myHist(mu), mu = slider(62, 74, step = 0.5))

manipulate函数控制估计的总体均值,点击左上角的设置图标可以看到控制条。

可以看到,黑色垂线是对总体均值的估计,均值为62时均方误差为43.403;移动垂线使它接近分布的中心,均值为68时,均方误差变小。

离散随机变量的期望值可能不是实际有意义的值。

假设抛硬币结果为X,X=0表示反面向上,X=1表示正面向上。期望值E[X]=0.5×0+0.5×1=0.5。

随机变量X的均值Mu本身就是一个随机变量,也有一个分布,Mu的分布的中心和X的分布的中心相同,因此,样本均值的期望值正是它试图估计的总体均值。此时,可以说这个估计是无偏的。

2. 方差(variance)

方差是衡量随机变量离散程度。标准差(standard deviation)为方差的平方根。

概率分布中,方差定义为随机变量X与均值?之间距离平方的期望:统计描述中,总体方差样本方差

?为总体均值, 为样本均值。

・样本方差 以估计总体方差 。

样本方差也是一个随机变量,样本方差的期望值是它试图估计的总体方差。以n-1为分母得到的才是总体方差的无偏估计,n-1为自由度。

・样本均值的期望: ;样本均值的方差: 。

样本标准差 是对总体变化的估计,描述总体的变化情况。

标准误(standard error) ,是样本均值的标准差,反映每次抽样样本之间的差异。

例:标准正态分布N(0,1)的方差为1,标准差为1; 个标准正态随机数均值的总体标准差为 。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
nosim<-1000
n<-10
sd(apply(matrix(rnorm(nosim * n), nosim),1,mean))
[1] 0.3256227

模拟10000个标准正态分布随机数样本,排列成1000行10列的矩阵并计算每行的均值,对这10个IID样本的均值计算标准差sd。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
1/sqrt(n) #10个标准正态随机数均值的总体标准差
[1] 0.3162278

标准差sd与标准正态分布均值的总体标准差十分接近。

标准均匀分布U(0,1)的方差为1/12;n个均匀分布随机数均值的总体标准差为1/√(12×n)。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
nosim<-1000
n<-10
sd(apply(matrix(runif(nosim * n),nosim),1,mean))
[1] 0.09004656

模拟10000个均匀分布随机数,排列成1000行10列的矩阵并计算每行的均值,对这10个IID样本的均值计算标准差sd。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
1/sqrt(12 * n)
[1] 0.09128709

两者仍然十分接近。

泊松分布Poisson(4)的方差为4;n个Poisson(4)的随机样本均值的总体标准差为2/√n。同理,

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
nosim<-1000
n<-10
sd(apply(matrix(rpois(nosim * n, 4), nosim), 1, mean))
[1] 0.6327016

2/sqrt(n)
[1] 0.6324555

例:UsingR包的father.son数据集,包含父亲和儿子的身高数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(UsingR)
data(father.son)
x <- father.son$sheight 
n <- length(x)
#画出儿子身高的直方图及密度分布
ggplot(father.son, aes(x=sheight)) + 
  geom_histogram(fill = "salmon",
                        binwidth=1, aes(y = ..density..), colour = "black") + 
  geom_density(size = 2)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
round(c(var(x), var(x) / n, sd(x), sd(x) / sqrt(n)),2)
[1] 7.92 0.01 2.81 0.09

密度分布为总体密度分布的估计。样本方差估计总体儿子身高的变异性。

假设这是一个随机样本,x的方差7.92和x的标准差2.81,表示样本数据集中儿子身高的变异性。0.01和0.09讨论儿子平均身高的变化;标准误0.09即n个儿子身高均值的分布的标准差。

3. 常见的概率分布

➢伯努利分布

伯努利分布是二项分布的特殊情况,随机变量 取值为0和1,概率分别为 和 。

概率质量函数PMF为: 。

的均值为 ,方差为 。

➢二项分布

二项分布是重复n次的伯努利分布,即二项随机变量是一组IID伯努利试验结果的和。

概率质量函数PMF为: , 。

的均值为,方差为 。

例:假设某人有8个孩子(不考虑双胞胎,生男和女的可能性都是0.5),计算有7个以上是女孩的概率。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
choose(8,7) * 0.5^8 + choose(8,8) * 0.5^8
[1] 0.03515625
pbinom(6, size = 8, prob = 0.5, lower.tail = FALSE)
[1] 0.03515625

pbiom函数计算 的概率。

➢正态分布

服从正态分布(也称高斯分布)的随机变量 均值为?,方差为 。

概率密度函数PDF为: 。

标准正态分布为 ,此时随机变量用 表示。

如果 ~ ,那么 ~ ;反之,~ 。

・正态曲线下,横轴区间(?-?,?+?)内的面积约为68%;横轴区间(?-2?,?+2?)内的面积约为95%;横轴区间(?-3?,?+3?)内的面积约为99%;即变量值x落在(?-3?,?+3?)区间的概率约为99%。

・标准正态分布的第1百分位数、第2.5百分位数、第5百分位数、第10百分位数分别为-1.28、-1.645、-1.96、-2.33;相应的,标准正态分布的第90百分位数、第95百分位数、第97.5百分位数、第99百分位数分别为1.28、1.645、1.96、2.33。

・正态分布 的第95百分位数为?+1.645?。在R中通过qnorm( )得到。

例:假设某网页的日点击量服从均值为1020,标准差为50的正态分布。计算某日点击量超过1160次的概率。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pnorm(1160, mean = 1020, sd = 50, lower.tail = FALSE)#lower.tail=FALSE表示取右尾
[1] 0.00255513
#由于计算可知1160与均值1020之间相差2.8个标准差
pnorm(2.8, lower.tail = FALSE)
[1] 0.00255513

计算日点击量为多少时能高于75%的时间的日点击量?

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
options(digits=0)
qnorm(0.75, mean = 1020, sd = 50)
[1] 1054
➢泊松分布

泊松分布Poisson(?)用于描述单位时间内随机事件发生的次数。λ是单位时间(或单位面积)内随机事件的平均发生率。泊松分布的期望和方差均为?。

概率质量函数PMF为:

应用:

1.建立计数数据模型; 2.建立事件-时间或生存数据模型; 3.建立列联表数据模型; 4.当二项分布X ~ Binomial(n,p)的n很大而p很小时,泊松分布可作为二项分布的近似,其中?为np,常用于流行病学领域。

假设随机变量X ~ Poisson(?t),则 是每单位时间的预期事件发生频率;t是总观察时间。

例:假设出现在公交站的人数服从泊松分布,平均每小时2.5人。观察公交站4小时,计算出现3个或更少人的概率。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
ppois(3, lambda = 2.5 * 4)
[1] 0.01034

例:假设抛一枚不规则的硬币正面向上的概率为0.01,抛500次,计算两次或更少正面向上的概率。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pbinom(2, size = 500, prob = 0.01)
[1] 0.1234

ppois(2, lambda = 500 * 0.01)
[1] 0.1247

当n很大而p很小时,二项分布与泊松分布十分接近。

编辑:李雪纯 冯文清

校审:张健 罗鹏

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 优雅R 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据科学18 | 统计推断-渐近性
渐近性(asymptopia)是样本量接近于无穷大时统计行为的一个术语。渐近统计即大样本统计主要研究当样本量n→∞时统计方法的有关渐进性质。渐近性有助于简单的统计推断和估计,也是频率解释概率的基础。
王诗翔呀
2020/07/03
2.6K0
数据科学18 | 统计推断-渐近性
常见概率分布及在R中的应用
常见概率分布 离散型 1.二项分布Binomial distribution:binom 二项分布指的是N重伯努利实验,记为X ~ b(n,p),E(x)=np,Var(x)=np(1-p) pbinom(q,size,prob), q是特定取值,比如pbinom(8,20,0.2)指第8次伯努利实验的累计概率。size指总的实验次数,prob指每次实验成功发生的概率 dbinom(x,size,prob), x同上面的q同含义。dfunction()对于离散分布来说结果是特定值的概率,对连续变量来说是密度
机器学习AI算法工程
2018/03/13
4K0
统计中的各种分布
1. 伯努利分布:伯努利分布:伯努利试验单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果。又名两点分布或者0-1分布。
小末快跑
2020/07/29
2.2K0
统计中的各种分布
从贝叶斯定理到概率分布:综述概率论基本定义
选自 Medium & analyticsvidhya 本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识。 简介 在本系列文章中,我想探讨一些统计学上的入门概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识,
小莹莹
2018/04/24
1.2K0
从贝叶斯定理到概率分布:综述概率论基本定义
数据分析师必掌握的统计学知识!
概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通常用样本空间S表示,S={正面,反面},而正面朝上这一特定的试验结果叫样本点。对于样本空间少的试验,我们极易观察出他们样本空间的大小,而对于较复杂的试验,我们就需要学习些计数法则了。
Python数据科学
2019/03/14
9840
数据分析师必掌握的统计学知识!
python实现10种概率分布(附代码)
在概率论和统计学中,均匀分布也被称为矩形分布。这种分布可以通过两个参数a和b来定义,它们分别是数轴上的最小值和最大值,因此通常表示为U(a, b)。
皮大大
2024/08/07
1.1K0
概率论和统计学中重要的分布函数
每当我们遇到任何概率实验,我们谈论的是随机变量,它只不过是获取实验预期结果的变量。例如,当我们掷骰子时,我们期望从集合{1,2,3,4,5,6}中得到一个值。所以我们定义了一个随机变量X,它在每次掷骰时取这些值。
deephub
2020/08/21
1.8K0
概率论和统计学中重要的分布函数
​常见的8个概率分布公式和可视化
来源:Deephub Imba本文约2800字,建议阅读8分钟本文我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。 概率和统计知识是数据科学和机器学习的核心;我们需要统计和概率知识来有效地收集、审查、分析数据。 现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。 “概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。” 了解数据的分布有助于更好
数据派THU
2022/04/29
1.2K0
​常见的8个概率分布公式和可视化
数据科学中常见的6个概率分布及Python实现
拥有良好的统计背景对于数据科学家的日常工作可能会大有裨益。每次我们开始探索新的数据集时,我们首先需要进行探索性数据分析(EDA),以了解某些特征的概率分布是什么。如果我们能够了解数据分布中是否存在特定模式,则可以量身定制最适合我们的机器学习模型。这样,我们将能够在更短的时间内获得更好的结果(减少优化步骤)。实际上,某些机器学习模型被设计为在某些分布假设下效果最佳。因此,了解我们正在使用哪个概率分布可以帮助我们确定最适合使用哪个模型。
刘早起
2020/06/30
1.4K0
数据科学中常见的6个概率分布及Python实现
统计系列(一)统计基础
在开篇中曾推荐过大家学习《商务与经济统计 精要版 原书第7版》,不知道大家有没有这种感觉,学完了不一定理解了,理解了不一定能正确应用。笔者并非统计科班出身,对其理解也是一点一滴逐步加深的。
HsuHeinrich
2023/03/15
1.1K0
统计系列(一)统计基础
任何时候你都不应该忽视概率统计的学习!
基于概率论的数理统计也即概率统计是现代科学研究的基础工具与方法论,错误的理解与使用概率统计也可能会导致完全错误的研究结果。即使现在,我们随便抽出一篇微生物组学研究的paper,都有可能发现其中概率统计的瑕疵,诸如线性回归算法样品数少于变量数、R2与P值未作校正、聚类结果未作检验等。无论任何时候,我们都应该尝试去反思:我的概率统计知识够吗?
SYSU星空
2022/05/05
8910
任何时候你都不应该忽视概率统计的学习!
随机变量X的k阶(原点、中心)矩
其中 𝐸[⋅]E[⋅] 表示数学期望。如果 𝑎=0a=0,则称 𝜇𝑘μk​ 为k阶原点矩;如果 𝑎=𝐸[𝑋]a=E[X],则称 𝜇𝑘μk​ 为中心矩。 随机变量 𝑋X 的k阶中心矩定义为:
用户11315985
2024/10/16
8970
随机变量X的k阶(原点、中心)矩
图解AI数学基础 | 概率与统计
教程地址:http://www.showmeai.tech/tutorials/83
ShowMeAI
2022/02/25
1K0
图解AI数学基础 | 概率与统计
Python实现 8 个概率分布公式及可视化
概率和统计知识是数据科学和机器学习的核心; 我们需要统计和概率知识来有效地收集、审查、分析数据。
数据STUDIO
2022/05/24
1.4K0
Python实现 8 个概率分布公式及可视化
概率论基础 - 3 - 方差
本文介绍方差。 方差 定义 数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。 ——百度百科 对随机变量X,若\mathbb{E}\left[(X-\mathbb{E}[X])^{2}\right]存在,则称它为X的方差,记作 Var[X]。 X的标准差为方差的开平方:\sigma=\sqrt{\operatorname{Var}[X]} 方差度量了随机变量X与期望值偏离的程度,衡量了X取值分散程度
为为为什么
2022/08/05
1K0
概率论基础 - 3 - 方差
​常用的连续概率分布汇总
在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。
deephub
2021/11/08
1.9K0
​常用的连续概率分布汇总
UCB Data100:数据科学的原理和技巧:第十六章到第十八章
在特征工程讲座结束时(第 14 讲),我们提出了调整模型复杂度的问题。我们发现一个过于复杂的模型会导致过拟合,而一个过于简单的模型会导致欠拟合。这带来了一个自然的问题:我们如何控制模型复杂度以避免欠拟合和过拟合?
ApacheCN_飞龙
2024/01/13
3060
UCB Data100:数据科学的原理和技巧:第十六章到第十八章
2.1 统计基础
主要用在线性回归的时候来估计b1 unbiasedness: 估计的残差是随机的 efficiency:对比其他估计样本残差最小 consistency:样本增大残差方差降低 linearity:是样本的线形函数
rocket
2018/09/14
1.4K0
2.1 统计基础
每个数据科学专家都应该知道的六个概率分布
摘要:概率分布在许多领域都很常见,包括保险、物理、工程、计算机科学甚至社会科学,如心理学和医学。它易于应用,并应用很广泛。本文重点介绍了日常生活中经常能遇到的六个重要分布,并解释了它们的应用。 介绍 假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而没有包含对应的学生。 他又犯了另一个错误,在匆忙中跳过了几项,但我们却不知道丢了谁的成绩。我们来看看如何来解决这个问题
小莹莹
2018/04/24
1.4K0
每个数据科学专家都应该知道的六个概率分布
深度好文 | 探索 Scipy 与统计分析基础
云朵君推荐 本文部分内容仅展示部分核心代码,本文提供含完整代码的完整PDF版本下载,获取方式:关注公众号 「数据STUDIO」并回复【210512】获取。若你对代码不感兴趣,直接略过,不影响阅读。
数据STUDIO
2021/06/24
3.2K0
相关推荐
数据科学18 | 统计推断-渐近性
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档