首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

EViews、Stata、回归分析……10月论坛答疑精选!

两期追踪数据对政策分析、项目评估来说也是很有用的。近些年来流行的田野实验方法,两期追踪数据进行分析则非常不错。 问题3: 如何通过预调查对调查问卷的条目进行修正?...条目的设置一定遵循有所变异的原则,当然所有的修正都应该结合专业以及问卷调查的目的。 问题4:如何理解假设检验的错误? 精彩回答: 第一,假设检验是带有概率性质的反证法过程。...问题5.:如何理解统计学中小样本精确分布和大样本近似分布? 精彩回答: 这个问题论坛网友给出了很好的回答。...问题7: 回归分析如何确定变量之间的因果关系? 精彩回答: 这里回答简单回归分析吧!...需要注意的是:在高维列联表中,一般使用对数线性模型,就不再使用卡方检验了。 问题10:有人说:“统计就像比基尼,露出来的部分固然诱人,没露出来的才是致命的”,大家如何理解这句话?

3.6K80

入门干货:从《权力的游戏》战斗场景中搞懂数据抽样和过滤

应该如何淘汰呢?不妨和上面例子一样,我们按照二分之一的概率淘汰一个,例如我们淘汰了2。...加权抽样 首先来解释加权:加权是通过对总体中的各个样本设置不同的数值系数(即权重),使样本呈现希望的相对重要性程度。 那么在抽样时为什么要加权呢?...例如,在城市和农村各调查300样本,城市人口与农村人口比例“城市:农村=1:2”(假设),在分析时我们希望将城市和农村看作一个整体,这时候我们就可以赋予农村样本一个2倍于城市样本的权重; 可以看出,加权抽样能够深刻的影响数据分析...目标加权:对某一特定样本组赋权,以达到们预期的特定目标;例如:我们想要:品牌A的20%使用者 = 品牌B的80%使用者;或者品牌A的80%使用者 = 使用品牌A的20%非使用者。...轮廓加权:多因素加权,目标加权不同(一维的),轮廓加权应用于对调查样本相互关系不明确的多个属性加权;面对多个需要赋权的属性,轮廓加权过程应该同时进行,以尽可能少的对变量产生扭曲。 ? 5.

1.1K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值

    我们可以使用以下功能来做到这一点: 现在让我们验证这将如何改善我们对测试数据的预测。请记住,R2 最初的模型是 0.604。...Max. ## 1.00 16.00 30.00 41.66 59.00 168.00 请注意,aregImpute使用不同的boostrap程序样本进行多个插补,可以使用n.impute...这表明对缺失值的估算比将噪声引入数据中要多得多,而不是我们可以使用的信号。可能的解释是,具有缺失值的样本具有不同于所有测量可用值的分布。...为了解决泊松模型中的过度分散问题,我们建立了加权负二项式模型。尽管此模型的表现不如加权Poisson模型(R2= 0.638 ),则在进行推理时可能会更好。...此后,我们尝试通过使用Hmisc包估算缺失值来进一步改进模型。尽管生成的模型比初始OLS模型要好,但是它们没有获得比以前更高的性能(R2=0.627)。 那么,最好的模型到底是什么?

    1.6K20

    【干货】统计学最常用的「数据分析方法」清单(上)

    该量表由一组陈述组成,每一陈述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五种回答,分别记为5、4、3、2、1,每个被调查者的态度总分就是他对各道题的回答所得分数的加总,这一总分可说明他的态度强弱或他在这一量表上的不同状态...如在前例中,问题是:一个人是否色盲与其性别是否有关?...多元线性回归分析 使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。...聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。...R型聚类分析:对指标进行分类处理,又称指标聚类分析使用相似系数作为统计量衡量相似度,相关系数、列联系数等。 3.

    1.6K60

    R语言线性模型臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型

    我们可以使用以下功能来做到这一点: 现在让我们验证这将如何改善我们对测试数据的预测。请记住,[R2[R2 最初的模型是 0.6040.604。...Max. ## 1.00 16.00 30.00 41.66 59.00 168.00 请注意,aregImpute使用不同的引导程序样本进行多个插补,可以使用n.impute参数指定...这表明对缺失值的估算比将噪声引入数据中要多得多,而不是我们可以使用的信号。可能的解释是,具有缺失值的样本具有不同于所有测量可用值的分布。...为了解决泊松模型中的过度分散问题,我们制定了加权负二项式模型。尽管此模型的表现不如加权Poisson模型([R2= 0.638 ),则在进行推理时可能会更好。...此后,我们尝试通过使用Hmisc包估算缺失值来进一步改进模型。尽管生成的模型比初始OLS模型要好,但是它们没有获得比以前更高的性能([R2= 0.627[R2=0.627)。

    1.1K00

    2019开发者调查结果和总结

    概要 今年,将近90,000名开发人员告诉我们他们如何学习和升级,他们正在使用哪些工具以及他们想要什么。 Stack Overflow的年度开发者调查是对世界各地代码人员进行的规模最大,最全面的调查。...男性更有可能说负责非开发工作对他们来说是一个问题,而性别少数受访者更有可能说有毒工作环境是一个问题。 我们要求受访者考虑他们最后一次使用和不使用我们的网站解决编码问题。...高度相关的对包括数据库管理员和系统管理员,DevOps专家和站点可靠性工程师,学术研究员和科学家,以及设计者和前端开发人员。 调查加权是一种用于在调查样本与基础人口不匹配时分析调查数据的方法。...我们可以使用调查权重来调整我们的调查样本与开发人员之间的不匹配。...我们在这里使用这个加权的具体例子的原因是,我们知道我们有一个系统的抽样问题,我们估计了预期的人口比例。我们可以在方向和幅度上证明我们的调查样本对我们的结果的影响。

    61730

    【视频】结构方程模型SEM分析心理学营销数据路径图可视化|数据分享

    SEM 还可用于调整消费者调查和其他问卷数据中的个人响应风格。 我们什么时候使用它?...本次调查中评分的品牌也根据其在完整模型中的因子得分绘制在散点图中。出于保密和篇幅的原因,此处未显示。 几个常见问题解答 我们需要多大的样本?...第一种方法是将 R 与外部商业 SEM 程序连接起来。这在模拟研究中通常很有用,其中使用 SEM 软件拟合模型是模拟管道的一部分。 第二种方法是使用专用的 R 包进行结构方程建模。 为什么是R 包?...这个问题的答案有三个: R 包旨在吸引大量需要 SEM 软件来回答其实质性问题的应用研究人员。许多应用研究人员以前没有使用过 R 并且习惯于商业 SEM 程序。...R 包旨在吸引那些教授 SEM 课程或 SEM 研究的人;理想情况下,教师应该能够使用易于使用但完整的 SEM 程序,该程序在计算机教室中安装成本低廉。 R 包旨在吸引在 SEM 领域工作的统计学家。

    36220

    【V课堂】数据挖掘知识脉络与资源整理(五)–缺失值处理

    人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据,调查者忘记回答了,拒绝回答,不完整的问卷...处理缺失值的步骤(使用工具R软件) 1 识别缺失数据 is.na 或complete.cases 或数据量大时用mice包的md.pattern 与VIM包的许多函数....如果在以后统计分析中还需以引入的解释变量和Y做分析,那么这种插补方法将在模型中引入自相关,给分析造成障碍。 (3)极大似然估计(Max Likelihood ,ML)。...多重插补(MI):从含缺失的数据集上,产生多个模拟数据集,不包含缺失,缺失的用蒙特卡诺模拟填补,然后对模拟数据集进行统计分析,得到结果再进行分析.填补的方法有用均值,用逻辑回归填补二值变量,多元逻辑回归填补多值变量...,还包括贝叶斯线性回归,判别分析,两水平正太插补,以及随机抽样,下面是mice包的实现与原理。

    88280

    开发者调查结果

    翻译自开发者调查结果2019。 概要 今年,将近90,000名开发人员告诉我们他们如何学习和升级,他们正在使用哪些工具以及他们想要什么。...男性更有可能说负责非开发工作对他们来说是一个问题,而性别少数受访者更有可能说有毒工作环境是一个问题。 我们要求受访者考虑他们最后一次使用和不使用我们的网站解决编码问题。...高度相关的对包括数据库管理员和系统管理员,DevOps专家和站点可靠性工程师,学术研究员和科学家,以及设计者和前端开发人员。 调查加权是一种用于在调查样本与基础人口不匹配时分析调查数据的方法。...我们可以使用调查权重来调整我们的调查样本与开发人员之间的不匹配。...我们在这里使用这个加权的具体例子的原因是,我们知道我们有一个系统的抽样问题,我们估计了预期的人口比例。我们可以在方向和幅度上证明我们的调查样本对我们的结果的影响。

    50070

    VR负面影响专题(上)

    将问卷嵌入到VR程序 将问卷整合到 VR 中,这不仅仅是在 3D 中显示文本面板,可以通过考虑两个主要因素来实现:将问题映射到用户已知的虚拟环境中的对象,以及提供使用来自虚拟环境的交互方法的回答机制。...因此,使用了谨慎估计的上限,假设相关系数较低但显着,r = .4 。样本量也是使用预测效应的大小和检测到这种效应的机会先验计算的。...由于本实验中收集的数据违反了上述应用 MANOVA 所需的多个前提条件,因此调整了分析策略。 使用基于重采样的方法对具有最小假设的数据进行半参数重复测量 MANOVA。对于这种用途使用参数引导方法。...参数引导旨在通过例如最大似然法来近似样本概率分布的参数,以根据近似分布从已知值中抽取大量样本。对于统计分析,软件 R Statistics 与 RStudio 一起使用。...“MANOVA.RM” 包中的函数 multRM() 实现了基于重采样的 MANOVA 以进行重复测量。参数引导程序使用了 10,000 次迭代。

    90920

    精神分裂症患者的脑老化:来自ENIGMA精分联盟26个国际队列的证据

    在ENIGMA精神分裂症工作组进行的一项前瞻性荟萃分析研究中,我们调查了成人SZ患者的高级脑老化证据,以及这是否与临床特征相关。...最近的两项对多个队列多达1110例SZ患者进行的大型分析发现,分别从结构t1加权MRI (Cohen′s d = 0.51)[32]和扩散张量成像(Cohen′s d = 0.29)得出的脑PAD中度增加...使用基于python的sklearn包,在健康训练样本(分别为男性和女性)中,77个平均脑结构测量值作为多变量岭回归的预测因子,以建模时序年龄。...首先,通过ENIGMA联盟的前瞻性荟萃分析方法,我们能够在全球多个独立队列中使用标准化分析方法评估SZ患者和健康对照之间的脑年龄差异,并提供了一个广义平均效应量。...“脑年龄”范式的另一个关键优势是,它将与年龄相关的多元脑结构模式捕获到一个(或多个)复合测量中,从而简化了关于脑老化规范模式的分析并有助于解释。SZ大脑提前老化的生物学机制尚不清楚。

    42020

    数据可视化分析案例:探索BRFSS电话调查数据

    ("brfss2013.RData") 第1部分:数据 描述如何收集样本中的观测值,以及此数据收集方法对推断范围(可概括性/因果关系)的影响。...方法论,偏见和需要改进的方面的问题:通过电话调查,有可能低估了几种类型的个人: 1.没有座机或手机的个人 2.拒绝回答或参加电话调查的个人。 3.在进行调查时无法通过电话联系/无法联系到调查的个人。...使用的总变量:3 sleptim1-报告的睡眠时间 qlhlth2-在过去30天中,有几天被报告为“精力充沛” 性别-报告的性别 ————- 研究问题3:总体生活满意度与受教育程度之间是否存在相关性?...使用的总变量:3 满意-整体生活满意度 教育-教育水平 性别-个人的生物性别 第3部分:探索性数据分析 研究问题1:体重指数(BMI)是否与受访者自身健康的看法相关?...由于大多数人口至少已从高中毕业,因此该数据似乎准确地代表了受访者的分布。 本文摘选《R语言数据可视化分析案例:探索BRFSS数据》

    60410

    R语言数据可视化分析案例:探索BRFSS数据

    p=9284 加载包  library(ggplot2)## Warning: package 'ggplot2' was built under R version 3.5.1library(dplyr...knitr)opts_chunk$set(echo = TRUE, fig.align = "center") 载入资料 load("brfss2013.RData") 第1部分:数据 描述如何收集样本中的观测值...方法论,偏见和需要改进的方面的问题:通过电话调查,有可能低估了几种类型的个人: 1.没有座机或手机的个人 2.拒绝回答或参加电话调查的个人。 3.在进行调查时无法通过电话联系/无法联系到调查的个人。...使用的总变量:3 sleptim1-报告的睡眠时间 qlhlth2-在过去30天中,有几天被报告为“全力以赴” 性别-报告的生物性别 ————- 研究问题3:总体生活满意度与受教育程度之间是否存在相关性...使用的总变量:3 满意-整体生活满意度 教育-教育水平 性别-个人的生物性别 第3部分:探索性数据分析 研究问题1:体重指数(BMI)是否与受访者自身健康的看法相关/相关?

    1.3K00

    R语言:用R语言填补缺失的数据

    p=4740 缺少数据在分析数据集时可能不是一个微不足道的问题。...尽管某些快速修正如均值替代在某些情况下可能很好,但这种简单的方法通常会向数据中引入偏差。 在这篇文章中,我们将使用airquality数据集(在R中提供)来推测缺失值。...随机数据丢失是一个更严重的问题,在这种情况下,进一步检查数据收集过程并尝试理解信息丢失的原因可能是明智的。例如,如果调查中的大多数人没有回答某个问题,他们为什么这样做?这个问题不清楚吗?...查看缺失的数据模式 该mice软件包提供了一个很好的功能md.pattern(),可以更好地理解丢失数据的模式 输出结果告诉我们,104个样本是完整的,34个样本只错过臭氧测量,4个样本只错过了Solar.R...一个可能更有用的视觉表示可以使用下面的VIM包得到 ? 该图有助于我们理解几乎70%的样本没有遗漏任何信息,22%的人缺少臭氧值,剩余的样本显示其他遗漏的模式。

    1.1K10

    Python用PyMC3贝叶斯模型平均BMA:采样、信息准则比较和预测可视化灵长类动物的乳汁成分数据

    p=33449原文出处:拓端数据部落公众号当面对多个模型时,我们有多种选择。模型选择因其简单性而具有吸引力,但我们正在丢弃有关模型中不确定性的信息。...我们希望在一个元模型中组合多个模型,以最小化元模型和真实生成模型之间的分歧,当使用对数评分规则时,这相当于:加权后验预测样本一旦我们计算了权重,使用上述 3 种方法中的任何一种,我们就可以使用它们来获得加权后验预测样本...对于进化生物学家来说,这是一个重要的问题,为了给出和回答,我们将使用3个变量,两个预测变量:新皮层的比例与总质量的比较 大脑和母亲体重的对数。对于预测变量,每克牛奶的千卡。...(-1, 2)plt.legend();正如我们所看到的,两个预测的平均值几乎相同,但加权模型中的不确定性更大。...正态分布模型分析职业足球比赛进球数7.R语言使用贝叶斯 层次模型进行空间数据分析8.R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型9.matlab贝叶斯隐马尔可夫hmm模型实现

    31900

    2017年11月R新包推荐

    (ProPublica是一家针对美国社会公共兴趣进行调查报道的独立非营利机构) 5)Rpolyhedra v0.1.0: 包含142个多面体数据库,从PHD文件中获取R6对象,并提供rgl 可视化功能...z变换之前使用混合模型. 4)dvmisc v1.1.1: 提供基础R函数的更快版本(例如,平均值、标准偏差、协方差、加权平均值),主要是用c++编写. 5)inlabru v2.1.2: 通过...,目的是为了回答这个问题:“当考虑重新采样的结果时,模型之间的区别是真实的吗?”...Robust Distance-Residual Plot 10)trialr v0.0.1: 提供一个贝叶斯临床试验设计的展示,在RStan包和R中实现,同时包含第一次在R中实现的一些设计 (例如:...3)ggalluvial v0.5.0: 使用ggplot2的stat和geom图层,展示冲积图以及可视化多个数据类型派生的关联结构. 4)shinyaframe v1.0.1: 使用户能够在基于

    92280

    超全干货 | 整理了一套常用的数据分析方法汇总!

    1)U验 :使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布 A:单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值...)有无差别; B:配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面为相似; C:两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。...用于分析离散变量或定型变量之间是否存在相关。 列联表分析的基本问题是,判明所考察的各属性之间有无关联,即是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?...方差分析 使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。 分类: 1....多元线性回归分析使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。

    1.1K52

    你应该掌握的几个统计学技术!

    因此,统计学习从统计学和功能分析的角度出发,提出了机器学习的理论框架。 为什么要学统计学习? ? 了解各种技术背后的想法,知道如何以及何时使用它们,这一点非常重要。...识别手写邮政编码中的数字。 根据组织样本进行癌症分类。 建立人口调查数据中工资与人口变量之间的关系。...举例:任意选择日常生活中相关的东西,比如,过去三年的月支出、月收入和月旅行次数。现在回答以下问题: 我明年的每月支出是多少? 哪个因素(月收入或月旅行次数)在决定我的月支出中更重要?...在判别分析中,有两个或两个以上群集是已知的,新的观测值根据特征,归入已知群集。判别分析对类别中X的分布进行建模,然后使用贝叶斯定理转换为对应概率。判别分析包括以下两种类型。...结合这些方法的优点和缺陷,通过改变加权公式,你可以使用不同的模型,为更大范围的输入数据提供良好的预测力。 随机森林算法非常类似于Bagging(套袋)。在这里,你可以绘制随机的自举样本。

    1.1K20

    如何解决抽样调查过程中所面临的难点和问题?——以政治学研究为例

    政治学研究中的抽样调查通常指概率抽样调查,即按照一定的概率以随机原则抽取样本,使总体中每一个个体都有一个已知不为零的被选机会进入样本,然后用结构化问卷采集数据的一种调查方式。...为了解决这个问题,在以人或家户为研究对象的抽样调查中,国内学者经常使用住宅地址抽样框。...无应答包括单元无应答和题目无应答,前者是指在一次抽样调查中,无法从样本那里获得任何一项回答。后者指样本虽然接受了访问,但是对某个调查问题没有提供答案。...进行数据分析时,R软件提供专门的软件包(list)可以计算出两组的均值差(即选择关键条目的比例)、标准误(standard error),也能根据研究假设执行回归分析。...下面是一个失败的案例,设计的思路是Q3场景里面的效能感要高于Q2。受访者回答的数据显示,1005个样本中,有5.3%的样本与设计者逻辑相反,另有63.6%的样本认为Q3和Q2效能感相等。

    81120

    数据分析师需要掌握的10个统计学知识

    因此,统计学习从统计学和功能分析的角度出发,提出了机器学习的理论框架。 为什么要学统计学习? ? 了解各种技术背后的想法,知道如何以及何时使用它们,这一点非常重要。...识别手写邮政编码中的数字。 根据组织样本进行癌症分类。 建立人口调查数据中工资与人口变量之间的关系。...多元线性回归使用多个独立变量,通过拟合最佳线性关系来预测因变量。 举例:任意选择日常生活中相关的东西,比如,过去三年的月支出、月收入和月旅行次数。现在回答以下问题: 我明年的每月支出是多少?...哪个因素(月收入或月旅行次数)在决定我的月支出中更重要? 月收入和月旅行次数如何和月支出有什么关系? 02 分类 分类是一种数据挖掘技术,它将类别分配给数据集合,帮助更准确地预测和分析。...结合这些方法的优点和缺陷,通过改变加权公式,你可以使用不同的模型,为更大范围的输入数据提供良好的预测力。 随机森林算法非常类似于Bagging(套袋)。在这里,你可以绘制随机的自举样本。

    1.4K20
    领券