Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R语言对二分连续变量进行逻辑回归数据分析

R语言对二分连续变量进行逻辑回归数据分析

原创
作者头像
拓端
修改于 2020-08-24 02:04:36
修改于 2020-08-24 02:04:36
79000
代码可运行
举报
文章被收录于专栏:拓端tecdat拓端tecdat
运行总次数:0
代码可运行

原文链接:http://tecdat.cn/?p=10067


教育或医学的标准情况是我们有一项连续的措施,但随后我们对那些具有临床/实践意义的措施有了切入点。一个例子是BMI。您可能有一个成绩测试,合格分数为70。研究人员有时可能会对30岁以上的BMI建模感兴趣,或者对通过/失败作的结果感兴趣。实质性问题通常落在对某人超过/低于此临床上显着阈值的概率进行建模的范畴之内。因此,我们将连续测量结果分为两部分,并使用逻辑回归等方法分析。

回到介绍性统计信息,您会听到类似的信息:大多数人宁愿使用规则线性回归而不是逻辑回归。但是,在上述情况下,出于实质性原因,我们经常有理由将结果一分为二。

因此,这是建议:

  • 估计连续结果的线性模型
  • 可以对它们取幂以获取赔率。
  • 我们不在乎线性回归的截距,因为它会受到阈值的影响。

那么这种方法在实践中如何起作用?在使用逻辑回归分析之前尝试在不同阈值上将连续变量二等分的任何人都知道,估计的系数确实会发生变化,并且它们会发生很大的变化!这是否与结果不应依赖阈值的说法相符?

我们可以使用模拟进行检查。首先,我将逐步介绍数据生成过程:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
set.seed(12345) # Set seed for reproducible results# Our single x variable is binary with 50% 0s and 50% 1s# so like random assignment to treatment and control# Our sample size is 300dat <- data.frame(x = rbinom(300, 1, .5))# Outcome ys = intercept of -0.5, the coefficient of x is 1 and there is logistic errordat$yc <- -.5 + dat$x + rlogis(nrow(dat))

yc

然后,我们可以yc在各个点上将结果分为两部分,以查看x当使用逻辑回归时是否会影响估计系数:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
        x0.9619012       x1.002632        x0.8382662

数字有些不同。如果我们yc直接将线性回归应用?

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# First, we create an equation to extract the coefficients and# transform them using the transform to logit formula above.       x1.157362

所有这些数字彼此之间并没有太大差异。如果我们对它们求幂以获得比值比,它们的差异会更大。现在,我们可以重复此过程几次,以比较结果中的模式。我重复2500次:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
    vlt.x      lt.x      mt.x      ht.x     vht.x     ols.x1.0252116 1.0020822 1.0049156 1.0101613 1.0267511 0.9983772

这些数字是不同方法的平均回归系数。

v代表非常,l / m / h代表低/中/高,t代表阈值,ols是回归结果。因此,例如,vlt.x是来自极低阈值模型的平均x系数。

所有方法的这些估计系数平均约为1,这就是我们编写的程序!每个方法的可变性如何?

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
boxplot(res)

我们看到,尽管平均值大致相同,但是当阈值极高时,估计的系数就更加可变。最小的可变系数是变换后的线性回归系数,因此当我们使用线性回归方法时,结果有些稳定。阈值越极端,我们获得的可变系数就越多。我们经常将数据二分法用于极端情况下的逻辑回归。

不同方法之间的估计系数如何?

我们看到,尽管所有方法声称x的系数y平均为1,但阈值非常低时的估计系数与阈值非常高时的估计系数非常弱相关(.13)。这些差异仅反映阈值,并且可能在实际数据分析中产生误导。人们可能会相信,在不同的阈值处的估计值差异很大,而在不同的阈值下却代表不同的人口参数(真实系数)。与每种方法最相关的方法是线性回归方法。线性回归方法与中阈值结果最相关。它也是最稳定的。


从本质上讲,当将数据按极端阈值二等分时,我们是否应该相信这些发现?还是应该只使用变换后的线性回归系数?

在结果的不同分位数处,预测变量和结果之间的关系也可能不同--分位数回归情况探讨。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
R语言是否对二分连续变量执行逻辑回归
教育或医学的标准情况是我们有一个持续的衡量标准。一个例子是BMI。您可以通过70分作为标准进行成绩测试。当这种情况发生时,研究人员有时可能会对BMI模型超过30或通过/失败感兴趣。实质性问题通常属于模拟某人超过/低于该临床显着阈值的概率的线条。因此,我们使用逻辑回归等方法对连续测量进行二分,并分析新的二元变量。
拓端
2021/07/16
6800
R语言是否对二分连续变量执行逻辑回归
【独家】手把手教线性回归分析(附R语言实例)
本文长度为8619字,建议阅读15分钟 本文为你介绍线性回归分析。 通常在现实应用中,我们需要去理解一个变量是如何被一些其他变量所决定的。 回答这样的问题,需要我们去建立一个模型。一个模型就是一个公式之中,一个因变量(dependent variable)(需要预测的值)会随着一个或多个数值型的自变量(independent variable)(预测变量)而改变的。我们能够构建的最简单的模型之一就是线性模型,我们可以假设因变量和自变量间是线性的关系。回归分方法可用于预测数值型数据以及量化预测结果与其预测
数据派THU
2018/01/29
14.1K1
【独家】手把手教线性回归分析(附R语言实例)
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享
最近我们被客户要求撰写关于逻辑回归的研究报告,包括一些图形和统计输出。 本文介绍了逻辑回归并在R语言中用逻辑回归(Logistic回归)模型分类预测病人冠心病风险数据
拓端
2022/12/12
1.5K0
数据分析之回归分析
回归,最初是遗传学中的一个名词,是由生物学家兼统计学家高尔顿首先提出来的。他在研究人类的身高时,发现高个子回归于人口的平均身高,而矮个子则从另一个方向回归于人口的平均身高。
黄成甲
2018/09/12
3.6K0
数据分析之回归分析
R语言JAGS贝叶斯回归模型分析博士生延期毕业完成论文时间|附代码数据
本文为读者提供了如何进行贝叶斯回归的基本教程。包括完成导入数据文件、探索汇总统计和回归分析
拓端
2022/12/23
9050
LASSO回归姊妹篇:R语言实现岭回归分析
前面的教程中,我们讲解了在高通量数据中非常常用的一种模型构建方法,LASSO回归(见临床研究新风向,巧用LASSO回归构建属于你的心仪模型)。作为正则化方法的一种,除了LASSO,还有另外一种模型值得我们学习和关注,那就是岭回归(ridge regression)。今天,我们将简要介绍什么是岭回归,它能做什么和不能做什么。在岭回归中,范数项是所有系数的平方和,称为L2-Norm。在回归模型中,我们试图最小化RSS+λ (sumβj2)。随着λ增加,回归系数β减小,趋于0,但从不等于0。岭回归的优点是可以提高预测精度,但由于它不能使任何变量的系数等于零,很难满足减少变量个数的要求,因此在模型的可解释性方面会存在一些问题。为了解决这个问题,我们可以使用之前提到的LASSO回归。
用户6317549
2020/07/17
6.5K0
LASSO回归姊妹篇:R语言实现岭回归分析
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享|附代码数据
本文介绍了逻辑回归并在R语言中用逻辑回归(Logistic回归)模型分类预测病人冠心病风险数据
拓端
2023/02/28
6300
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据|附代码数据
在混合效应逻辑回归用于建立二元结果变量的模型,其中,当数据被分组或同时存在固定和随机效应时,结果的对数几率被建模为预测变量的线性组合(点击文末“阅读原文”获取完整代码数据)。
拓端
2022/11/02
1.9K0
逻辑回归or线性回归,傻傻分不清楚
线性回归作为一种常用的关联分析工具,其功能强大,解释度高,但是其缺点也是很明显的。其只适用于处理连续型的变量,无法处理离散型的变量,比如对于case/control的实验设计,患病与否的临床信息,线性回归就无能无力了,此时我们就需要另外一种方法-逻辑回归。
生信修炼手册
2019/12/19
2.7K0
逻辑回归or线性回归,傻傻分不清楚
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
在混合效应逻辑回归用于建立二元结果变量的模型,其中,当数据被分组或同时存在固定和随机效应时,结果的对数几率被建模为预测变量的线性组合(点击文末“阅读原文”获取完整代码数据)。
拓端
2025/05/01
1240
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据|附AI智能体
在混合效应逻辑回归用于建立二元结果变量的模型,其中,当数据被分组或同时存在固定和随机效应时,结果的对数几率被建模为预测变量的线性组合(点击文末“阅读原文”获取完整代码、数据和AI智能体)。
拓端
2025/05/08
1710
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据|附AI智能体
R语言从入门到精通:Day12
从许多方面来看,回归分析都是统计学的核心。它其实是一个广义的概念,通指那些用一个或多个预测变量(也称自变量)来预测响应变量(也称因变量) 的方法。通常,回归分析可以用来挑选与响应变量相关的预测变量,可以描述两者的关系,也可以生成一个等式,通过预测变量来预测响应变量。
用户6317549
2019/10/08
1.4K0
R语言从入门到精通:Day12
R语言:混合效应模型分析基于随机对照试验的重复测量资料(结局为连续型变量)
重复测量资料在临床数据中非常普遍,常用重复测量的方差分析进行统计分析,但是经常面临的问题有:
数据派THU
2023/10/01
1.2K0
R语言:混合效应模型分析基于随机对照试验的重复测量资料(结局为连续型变量)
机器学习 | 使用statsmodels和sklearn进行回归分析
记录一下使用Python进行的单变量回归分析的操作流程。另外推荐一个sklearn机器学习的哔哩哔哩视频(文末阅读原文,进行观看)。
邓飞
2020/06/17
2.5K0
对比R语言和Python,教你实现回归分析
r的取值范围是[-1,1],r=1表示完全正相关!r=-1表示完全负相关!r=0表示完全不相关。
1480
2020/03/03
1.9K0
岭回归与LASSO回归:解析两大经典线性回归方法
岭回归,又称L2正则化,是一种用于解决多重共线性问题的线性回归技术。多重共线性是指自变量之间存在高度相关性的情况,这会导致普通最小二乘法(OLS)估计的不稳定性,使得模型的预测性能下降。岭回归通过在损失函数中添加一个正则化项来解决这个问题,其数学表达式如下:
小馒头学Python
2023/11/23
6.9K0
岭回归与LASSO回归:解析两大经典线性回归方法
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
我们需要2SLS回归的一些基本结果来开发诊断方法,因此我们在此简单回顾一下该方法。2SLS回归是由Basmann(1957)和Theil(引自Theil 1971)在20世纪50年代独立发明的,他们采取了略微不同但又相当的方法,都在下面描述,以得出2SLS估计器。
拓端
2022/03/05
4.2K0
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
【数据分析 R语言实战】学习笔记 第九章(下)岭回归及R实现 广义线性模型
岭回归分析是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,它是通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。
Ai学习的老章
2019/04/10
9.9K0
【数据分析 R语言实战】学习笔记 第九章(下)岭回归及R实现    广义线性模型
如何用逻辑回归做数据分析?
逻辑回归是解决二分类问题的监督学习算法,用来估计某个类别的概率。其直接预测值是表示0-1区间概率的数据,基于概率再划定阈值进行分类,而求解概率的过程就是回归的过程。
Python数据科学
2021/01/28
1.1K0
如何用逻辑回归做数据分析?
R语言JAGS贝叶斯回归模型分析博士生延期毕业完成论文时间|附代码数据
本文为读者提供了如何进行贝叶斯回归的基本教程。包括完成导入数据文件、探索汇总统计和回归分析
拓端
2023/05/11
3650
推荐阅读
R语言是否对二分连续变量执行逻辑回归
6800
【独家】手把手教线性回归分析(附R语言实例)
14.1K1
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享
1.5K0
数据分析之回归分析
3.6K0
R语言JAGS贝叶斯回归模型分析博士生延期毕业完成论文时间|附代码数据
9050
LASSO回归姊妹篇:R语言实现岭回归分析
6.5K0
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享|附代码数据
6300
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据|附代码数据
1.9K0
逻辑回归or线性回归,傻傻分不清楚
2.7K0
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
1240
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据|附AI智能体
1710
R语言从入门到精通:Day12
1.4K0
R语言:混合效应模型分析基于随机对照试验的重复测量资料(结局为连续型变量)
1.2K0
机器学习 | 使用statsmodels和sklearn进行回归分析
2.5K0
对比R语言和Python,教你实现回归分析
1.9K0
岭回归与LASSO回归:解析两大经典线性回归方法
6.9K0
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
4.2K0
【数据分析 R语言实战】学习笔记 第九章(下)岭回归及R实现 广义线性模型
9.9K0
如何用逻辑回归做数据分析?
1.1K0
R语言JAGS贝叶斯回归模型分析博士生延期毕业完成论文时间|附代码数据
3650
相关推荐
R语言是否对二分连续变量执行逻辑回归
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验