Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R语言关于回归系数的解释

R语言关于回归系数的解释

原创
作者头像
拓端
修改于 2020-08-24 02:04:10
修改于 2020-08-24 02:04:10
91200
代码可运行
举报
文章被收录于专栏:拓端tecdat拓端tecdat
运行总次数:0
代码可运行

原文链接:http://tecdat.cn/?p=10076


除非我们打算提出因果主张,否则我们应该像描述虚拟变量那样解释连续变量的回归系数。

一条有用建议是,以预测的方式解释回归系数 。要了解它们的含义,让我们考虑一个示例。

预测学生表现

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hsb <- read.csv("datasets/hsb_comb_full.csv")names(hsb)[1] "schoolid" "minority" "female"   "ses"      "mathach"  "size"     "sector"   [8] "pracad"   "disclim"  "himinty"  "MEANSES"  "N_BREAK"  "sesdev"   "myschool"# Let's go with the first school, and the first 5 student-level variableshsb <- hsb[hsb$schoolid == hsb$schoolid[1], 1:5]summary(hsb)schoolid       minority           female            ses             mathach      Min.   :1224   Min.   :0.00000   Min.   :0.0000   Min.   :-1.6580   Min.   :-2.832  1st Qu.:1224   1st Qu.:0.00000   1st Qu.:0.0000   1st Qu.:-0.8830   1st Qu.: 3.450  Median :1224   Median :0.00000   Median :1.0000   Median :-0.4680   Median : 8.296  Mean   :1224   Mean   :0.08511   Mean   :0.5957   Mean   :-0.4344   Mean   : 9.715  3rd Qu.:1224   3rd Qu.:0.00000   3rd Qu.:1.0000   3rd Qu.:-0.0330   3rd Qu.:16.370  Max.   :1224   Max.   :1.00000   Max.   :1.0000   Max.   : 0.9720   Max.   :23.584  # Mathach, ses and female seem to have some variability# Let's predict math achievement using female (dummy), ses (continuous)lm(mathach ~ female + ses, hsb)Call:lm(formula = mathach ~ female + ses, data = hsb)Coefficients:(Intercept)       female          ses       12.092       -2.062        2.643  

现在,解释其系数的典型方法female是:

在保持SES不变的情况下,男性和女性在数学成绩上平均相差2.06点,其中男性表现更好。

 但是要澄清语言,我们可以说:

对于拥有相同SES的学生,我们期望男性和女性之间的数学成绩相差2.06点,而男性的成绩更好。

问题出现在对的解释上ses,通常是:

保持性别不变,SES的提高与数学成绩提高2.64有关。

我们通常声称这是一个相关陈述,没有因果关系。但是,它具有因果关系。这暗示着,在一个人中,如果我们可以将他们的SES提高1点,我们可以期望数学成绩提高2.64点。

盖尔曼和希尔的措辞解释如下:

对于相同性别的学生,我们期望在SES中有分数差异的学生之间的数学成绩有2.64分的差异。

这就是所谓的回归系数的预测解释。它没有因果关系,并传达出我们正在对不同个体之间的差异进行预测或描述。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用R语言做逻辑回归
用R语言做逻辑回归 jmzeng(jmzeng1314@163.com) 回归的本质是建立一个模型用来预测,而逻辑回归的独特性在于,预测的结果是只能有两种,true or false 在R里面做逻辑回归也很简单,只需要构造好数据集,然后用glm函数(广义线性模型(generalized linear model))建模即可,预测用predict函数。 我这里简单讲一个例子,来自于加州大学洛杉矶分校的课程 首先加载需要用的包 library(ggplot2) library(Rcpp) 然后加载测试数据 my
生信技能树
2018/03/08
2.1K0
用R语言做逻辑回归
笔记 GWAS 操作流程6-2:手动计算GWAS分析中的GLM和Logistic模型
表型数据如果只有一个,可以放在plink文件的ped数据的第六列,也可以单独拉出来:
邓飞
2020/09/30
2.9K0
笔记 GWAS 操作流程6-2:手动计算GWAS分析中的GLM和Logistic模型
R语言 基本统计分析
“ 本章节是数据预处理的第一步:了解数据(集)。只有充分了解了数据,我们才能对数据做进一步的预处理和后续深入的分析。”
拴小林
2020/07/10
1.3K0
R语言 基本统计分析
R语言因子分析、相关性分析大学生兼职现状调查问卷数据可视化报告
随着大学的普及教育,大学生就业形势变得更加困难,很多学生都意识到这个问题。所以走出象牙塔,去接触社会,来增长社会经验也会成为一个必然趋势。而大学生兼职既可以接触社会锻炼自己,又可以使自己的经济条件得到一定的改善,因而成为很多大学生的不二之选,渐渐形成一种普遍现象。但是在兼职过程中大学生也会碰到各种各样的挫折,甚至很多人逐渐把重心转移到高收益上,远离了锻炼自己的初衷,同时由于法律意识的缺失,大学生在兼职过程中有可能上当受骗,甚至误入歧途,怎样解决这些存在的问题成了兼职现象中不得忽视的一个重要问题。而大学生从兼职中实际的得到了哪些收获,更是最根本的问题。
拓端
2023/03/09
6500
R in action读书笔记(18)第十三章
其中g(μY)是条件均值的函数(称为连接函数)。另外,可放松Y为正态分布的假设,改为Y
Ai学习的老章
2019/04/10
1.1K0
R in action读书笔记(18)第十三章
R语言线性模型臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型
在这篇文章中,我将从一个基本的线性模型开始,然后从那里尝试找到一个更合适的线性模型。
拓端
2020/08/10
1.1K0
R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风
行为风险因素监视系统(BRFSS)是美国的年度电话调查。BRFSS旨在识别成年人口中的危险因素并报告新兴趋势。例如,询问受访者饮食和每周的体育锻炼,艾滋病毒/艾滋病状况,可能的烟草使用,免疫接种,健康状况,健康天数-与健康相关的生活质量,获得医疗保健,睡眠不足,高血压意识,胆固醇意识,慢性健康状况,饮酒,水果和蔬菜消费,关节炎负担和安全带使用。
拓端
2020/09/25
8160
R语言数据可视化分析案例:探索BRFSS数据
描述如何收集样本中的观测值,以及此数据收集方法对推断范围(可概括性/因果关系)的影响。http://www.cdc.gov/brfss/,以及下面的“有关数据的更多信息”部分。
拓端
2020/08/23
1.3K0
R语言:EM算法和高斯混合模型的实现
期望最大化(EM)算法是用于找到最大似然的或在统计模型参数,其中该模型依赖于未观察到的潜变量最大后验(MAP)估计的迭代方法。期望最大化(EM)可能是无监督学习最常用的算法。
拓端
2020/08/20
1.7K0
R语言:EM算法和高斯混合模型的实现
R语言-泊松回归
当通过一系列连续型和或类别型预测变量的预测计数型结果变量时,泊松回归是非常有用的工具。利用robust包学习和理解泊松回归。
黑妹的小屋
2020/08/06
5950
一文看懂主成分分析
主成分分析法是数据挖掘中常用的一种降维算法,是Pearson在1901年提出的,再后来由hotelling在1933年加以发展提出的一种多变量的统计方法,其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,也可以用来削减回归分析和聚类分析中变量的数目,与因子分析类似。
生信技能树
2018/07/27
27.5K0
一文看懂主成分分析
R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
由于空气质量数据集包含一些缺失值,因此我们将在开始拟合模型之前将其删除,并选择70%的样本进行训练并将其余样本用于测试:
拓端
2021/07/16
1.6K0
R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
R语言系列第四期:②R语言多组样本方差分析与KW检验
R语言系列四的第二个部分是对多组连续性数据的处理,分组往往是三组或者三组以上,当然两组数据也可以利用方差分析,但是两组数据还是建议使用t检验。同样多组数据的比较也分为参数法和非参数法,包括这个部分介绍的重点参数法方差分析,以及非参数方法kruskal—Wallis检验。
百味科研芝士
2019/05/23
7.5K0
Kaggle实战:House Prices: Advanced Regression Techniques(上篇)
文章主要从数据科学的角度探讨了房屋价格预测的方法。首先介绍了房屋价格数据预处理的方法,包括数据清洗、缺失值处理、异常值处理和数据标准化等。然后介绍了基于线性回归的预测方法和基于树的预测方法,包括决策树、随机森林、梯度提升树和神经网络等。最后通过Kaggle上的一个竞赛数据,进行了实际的数据分析和预测,并提供了详细的代码和解释。
serena
2017/05/11
7.5K0
R语言数据分析与挖掘(第四章):回归分析(3)——变量的选择
  在数据挖掘的实战过程中,经常会遇到变量非常多的情况,即数据的维数很高,也称为“维数灾难”问题。在我们生物医学统计领域,一个数据集中可能存在成百上千个变量,对于回归处模而言,并不是越多变量越好,利用少而精的变量建模显得极为重要,如何选择变量子集就是解决问题的关键。
DoubleHelix
2019/12/13
8.9K0
R语言数据分析与挖掘(第四章):回归分析(3)——变量的选择
4-7 总结数据信息
> head(airquality,10) Ozone Solar.R Wind Temp Month Day 1 41 190 7.4 67 5 1 2 36 118 8.0 72 5 2 3 12 149 12.6 74 5 3 4 18 313 11.5 62 5 4 5 NA NA 14.3 56 5 5 6 28
hankleo
2020/09/16
1850
R语言数据分析与挖掘(第一章):数据预处理(1)——缺失值处理
今天开始新的R教程:R语言数据分析与挖掘,本教程是在掌握R基础语法和基本绘图的情况下学习,没有R基础的可先在网上找相关教程进行学习。当然,本公众号(bioinfo_cloud)也有基础的语法教程,也可参考学习!后台回复:R语言基础教程,即可获取,或者通过本公众号的菜单栏自己寻找!
DoubleHelix
2019/09/25
4.5K0
R语言数据分析与挖掘(第一章):数据预处理(1)——缺失值处理
巧用R语言实现各种常用的数据输入与输出
将数据输入或加载到R工作空间中,是使用R进行数据分析的第一步。R语言支持读取众多格式的数据文件,excel文件,csv文件,txt文件和数据库(MYSQL数据库)等;其中,excel和csv是我们最常遇到的数据文件格式。
1480
2019/06/19
7.9K2
巧用R语言实现各种常用的数据输入与输出
R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视化
随着网络的迅速发展,依托于网络的购物作为一种新型的消费方式,在全国乃至全球范围内飞速发展。电子商务成为越来越多消费者购物的重要途径。我们被客户要求撰写关于网络购物行为的研究报告。
拓端
2022/11/16
3750
数据可视化分析案例:探索BRFSS电话调查数据
描述如何收集样本中的观测值,以及此数据收集方法对推断范围(可概括性/因果关系)的影响。http://www.cdc.gov/brfss/,以及下面的“有关数据的更多信息”部分。
拓端
2021/12/21
6250
数据可视化分析案例:探索BRFSS电话调查数据
推荐阅读
相关推荐
用R语言做逻辑回归
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验