前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言对混合分布中的不可观测与可观测异质性因子分析

R语言对混合分布中的不可观测与可观测异质性因子分析

作者头像
拓端
发布2020-09-28 10:31:23
5940
发布2020-09-28 10:31:23
举报
文章被收录于专栏:拓端tecdat

原文链接:http://tecdat.cn/?p=13584


之前,我们讨论了利率制定中可观察和不可观察异质性之间的区别(从经济角度出发)。为了说明这一点,我们看了以下简单示例。 X 代表一个人的身高。考虑以下数据集

代码语言:javascript
复制
> Davis[12,c(2,3)]=Davis[12,c(3,2)]

在这里,关注变量是给定人的身高,

代码语言:javascript
复制
代码语言:javascript
复制
> X=Davis$height
代码语言:javascript
复制
如果我们看直方图,我们有
代码语言:javascript
复制
代码语言:javascript
复制
> hist(X,col="light green", border="white",proba=TRUE,xlab="",main="")
代码语言:javascript
复制

在这里,如果我们拟合高斯分布,将其绘制出来,并添加基于核的估计量,我们将得到

代码语言:javascript
复制

> (param <- fitdistr(X,"normal")$estimate)
> f1 <- function(x) dnorm(x,param[1],param[2])
> x=seq(100,210,by=.2)
> lines(x,f1(x),lty=2,col="red")
> lines(density(X))

当我们有一个获得混合分布不可观察的异质性因子:概率 p1,一个随机变量 ,概率p2,一个随机变量 。我们可以使用例如

代码语言:javascript
复制



> (param12 <- c(mix$lambda[1],mix$mu,mix$sigma))
[1] 0.4002202 178.4997298 165.2703616 6.3561363 5.9460023

如果我们绘制两个高斯分布的混合图,我们得到

代码语言:javascript
复制




> lines(x,f2(x),lwd=2, col="red") lines(density(X))

不错。实际上,我们可以尝试使用自己的代码最大限度地提高可能性,

代码语言:javascript
复制



> bvec <- c(0,-1,0,0)
> constrOptim(c(.5,160,180,10,10), logL, NULL, ui = Amat, ci = bvec)$par


[1]   0.5996263 165.2690084 178.4991624   5.9447675   6.3564746

在这里,我们包括一些约束,以保证概率属于单位间隔,并且方差参数保持正值。

进一步来说,如果我们假设基础分布具有相同的方差

在这种情况下,我们必须使用之前的代码,并进行一些小的更改,

代码语言:javascript
复制



> (param12c= constrOptim(c(.5,160,180,10), logL, NULL, ui = Amat, ci = bvec)$par)


[1]   0.6319105 165.6142824 179.0623954   6.1072614

如果我们不能观察到异质性因素,这就是我们可以做的。我们实际上在数据集中有一些信息。例如,我们具有人的性别。现在,如果我们查看每个性别的身高直方图,以及基于核的每个性别的身高密度估计量,

因此,看起来男性的身高和女性的身高是不同的。也许我们可以使用实际观察到的变量来解释样本中的异质性。在形式上,这里的想法是考虑具有可观察到的异质性因素的混合分布:性别,

现在,我们对以前称为类[1]和[2]的解释是:男性和女性。在这里,估算参数非常简单,

代码语言:javascript
复制



sex=="F"
mean         sd
164.714286   5.633808
sex=="M"
mean         sd
178.011364   6.404001

如果我们绘制密度,我们有

代码语言:javascript
复制
代码语言:javascript
复制
> lines(x,f4(x),lwd=3,col="blue")
代码语言:javascript
复制

然后,一个自然的想法是根据以前的计算得出方差的估计量

代码语言:javascript
复制



> s
[1] 6.015068

再一次,可以绘制相关的密度,

代码语言:javascript
复制

> lines(x,f5(x),lwd=3,col="blue")

现在,如果我们仔细考虑一下我们所做的事情,那仅仅是对一个因素(人的性别)的线性回归,

实际上,如果我们运行代码来估算此线性模型,

代码语言:javascript
复制




Residuals:
Min       1Q   Median       3Q      Max
-16.7143  -3.7143  -0.0114   4.2857  18.9886


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 164.7143     0.5684  289.80   <2e-16 ***
sexM         13.2971     0.8569   15.52   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


Residual standard error: 6.015 on 198 degrees of freedom
Multiple R-squared:  0.5488,  Adjusted R-squared:  0.5465
F-statistic: 240.8 on 1 and 198 DF,  p-value: < 2.2e-16

我们得到的均值和方差的估计与之前获得的估计相同。因此,如果您有一个不可观察的异质性因子,我们可以使用混合模型来拟合分布,但是如果您可以得到该因子的替代,这是可观察的,则可以运行回归。

点击标题查阅往期内容

R语言实现:混合正态分布EM最大期望估计法

在R语言和Stan中估计截断泊松分布

在R语言中使用概率分布:dnorm,pnorm,qnorm和rnorm

R语言混合正态分布EM最大期望估计

在R语言和Stan中估计截断泊松分布

更多内容,请点击左下角“阅读原文”查看报告全文

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 拓端数据部落 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 原文链接:http://tecdat.cn/?p=13584
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档