Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >手把手教你做倾向评分匹配

手把手教你做倾向评分匹配

作者头像
百味科研芝士
发布于 2019-07-17 03:18:26
发布于 2019-07-17 03:18:26
5.1K0
举报
文章被收录于专栏:百味科研芝士百味科研芝士

各位科研芝士的朋友大家好,今天和大家分享一下新的知识点—PSM,或许大家早已听过这个名词了,或许你对它还是半知半解,不过没关系,希望可以通过今天的帖子帮助你对该名词有一定的理解。

PSM

PSM英文全称为Propensity Score Matching,意思是倾向匹配得分,炸一听?多么有学术气息呀

那么如何通俗的理解PSM模型呢?

举个例子,假设一列病人样本,一组服用了药物A,我们想要知道,如果病人服用了药物A,那么他生活质量是否提高了?他的生存时间是否提高了?

但我们首先面临一个问题,究竟是因为药物A的影响,所以生活质量和生存时间均提高了,还是由于患者本身所产生的差异。

此时可以通过寻找另一列病人样本,服用的则是安慰剂对照。也就是说当我们想研究药物A是否对生活质量和生存时间产生影响时,首先需要找两列在其他各方向均差不多的病人,如果此时二者在生活质量和生存时间上依然产生了差别,那么可以认为这种差异是由是否服用药物A这个因素造成的。这样的方法有一个专业的名词,即PSM。

官方的话语则是:为了探讨某因素(暴露或干预,下面统称处理因素)与结局的关系,需要设立对照组进行比较,其目地是控制非处理因素的干扰,突显处理因素的的效应。

但是在观察性研究中(如队列研究),研究对象是非随机分配的,这就会使混杂因素在两组中分配不均匀,导致处理因素和结局的关系受到混杂因素的干扰。

近几年在国外研究中用的比较广泛的控制混杂因素的方法—倾向性评分匹配(propensity score matching, PSM)。

之前我们平台推出了基于SPSS计算PSM,那我们今天采用R语言计算PSM,测试数据在后台回复"PSM"提供。

今天PSM推荐的包为MatchIt,一听名字就是做匹配用的。

下面进入正题,今天我们看看如何用MatchIt,进行PSM分析:

1. 安装并加载包,关于包的安装,已经讲过多次,直接上代码:

2.数据读取:

数据如下:该数据包括四列信息,分别是年龄,性别,样本类型和病人的ID

接着我们查看样本组成

我们发现该数据集中case样本包括250个,control样本包括1000个,接着我们需要对这两类样本进行匹配,匹配的协变量主要是性别因素和年龄因素。

3. 数据匹配,采用matchit函数,首先要定义一个逻辑变量,这一点非常重要:

生存好逻辑变量之后,接着我们需要进行匹配

Matchit函数的第一个对象为一个表达式,因为进行了逻辑变量分组,接着把需要考虑的协变量放进去,这里主要是性别和年龄,method部分是我们要采取哪种方法进行匹配,一般默认为nearest,表示采取最近邻匹配法,该方法是PSM中最常见也最基本的方法,该方法是将处理组和对照组倾向性评分中最接近的个体进行匹配,当处理组个体全部匹配后,匹配结束,ratio代表匹配比例,当ratio=1,代表进行1:1匹配。

匹配结果展示:

因为我们是250和1000进行匹配,可以看到在control 里面还有750个未匹配到。

5. 配对样本整理

我们按照组别排序,对配对样本整理,便看到左边三列是control组,右边三列是case组,

比如control4和case1进行了配对,则完成了样本之间的配对。

Ok,今天的推文就到这,我们分享了如何在基于R语言的PSM的计算,希望能对大家有所帮助,最后,欢迎大家多多交流。

—END—

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 百味科研芝士 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
倾向性评分法(propensity score method,PSM)
倾向评分(propensity score,PPS)这一概念最早出现在1983年rosenbaum与rubin合写的一篇名为《倾向评分对于观察研究中因果效应的中心作用》的论文中。2010年之后,这一方法日益受到人们的关注。国际上越来越多的研究者将倾向性评分法应用到流行病学、健康服务研究、经济学以及社会科学等许多领域。
医学木匠
2020/12/11
14.3K0
倾向性评分法(propensity score method,PSM)
R语言倾向性评分:匹配
倾向性评分(Propensity Score, PS)是一种控制混杂因素的统计学方法,通过倾向性评分的方法,可以把基线控制在可比的水平,这样就可以比较处理因素带来的差异了。
医学和生信笔记
2023/02/14
2.9K1
R语言倾向性评分:匹配
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二)
《Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution》这篇论文说到了因果推断的三层。
悟乙己
2021/12/07
4.8K0
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二)
最强的倾向性评分方法—— 重叠加权(Overlap Weighting,OW)
不知道大家是否记得,前面的文章给大家介绍过一种用于降低混杂的实用方法——倾向性评分法(Propensity Score Method,PSM)。倾向性评分(PS)的定义在这里就不赘述了,有兴趣或者想重温一下的朋友可以阅读一下我们之前发的文章。倾向性评分只是一个用于综合需要调整变量的分数,而综合完之后我们要用传统的方法去调整倾向性评分,常用的方法有4种,匹配、加权、调整以及分层。那么重点来了,相信很多朋友在阅读完之前的文章都会有一个同样的问题——谁是4个方法中的大哥?
医学木匠
2021/01/14
8.5K1
最强的倾向性评分方法—— 重叠加权(Overlap Weighting,OW)
因果推断笔记——python 倾向性匹配PSM实现示例(三)
因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二) 因果推断笔记——因果图建模之微软开源的dowhy(一)
悟乙己
2021/12/07
5.4K0
因果推断笔记——python 倾向性匹配PSM实现示例(三)
因果推断笔记——自整理因果推断理论解读(七)
之前有整理过一篇:因果推断笔记—— 相关理论:Rubin Potential、Pearl、倾向性得分、与机器学习异同(二) 不过,那时候刚刚开始学,只能慢慢理解,所以这边通过一轮的学习再次整理一下手里的笔记。
悟乙己
2021/12/07
11.6K0
因果推断笔记——自整理因果推断理论解读(七)
因果推断(二)倾向匹配得分(PSM)
前文介绍了如何通过合成控制法构造相似的对照组,除此之外,也可以根据倾向匹配得分(PSM)进行构造,即为每一个试验组样本在对照组中找对与之相似的样本进行匹配。PSM 通过统计学模型计算每个样本的每个协变量的综合倾向性得分,再按照倾向性得分是否接近进⾏匹配。本文参考自PSM倾向得分匹配法[1]。
HsuHeinrich
2023/08/10
9600
因果推断(二)倾向匹配得分(PSM)
干货 | 因果推断在项目价值评估中的应用
我们的日常生活中充斥着各种需要推断原因和结果的问题,比如,吸烟是否会导致肺癌,大学教育是否能够提高收入水平?有时,当我们试图回答这些问题的时候,会陷入相关的陷阱,即认为相关等于因果。
携程技术
2022/12/14
1.5K0
干货 | 因果推断在项目价值评估中的应用
因果推断常用计量方法
是山河呀
2025/02/21
2000
R语言倾向性评分:加权
之前已经介绍过倾向性评分匹配(propensity score matching)、倾向性评分回归和分层:
医学和生信笔记
2023/02/14
1.5K0
R语言倾向性评分:加权
因果推断笔记——双重差分理论、假设、实践(四)
本节参考: 因果推断综述及基础方法介绍(一) 双重差分法(DID)的原理与实际应用
悟乙己
2021/12/07
3.5K0
因果推断笔记——双重差分理论、假设、实践(四)
因果推断笔记——DR :Doubly Robust学习笔记(二十)
这个系列文章: 因果推断笔记——python 倾向性匹配PSM实现示例(三) 因果推断笔记——DML :Double Machine Learning案例学习(十六)
悟乙己
2021/12/21
4.4K0
因果推断笔记——DR :Doubly Robust学习笔记(二十)
R语言倾向性评分:回归和分层
倾向性评分有4种应用,前面介绍了倾向性评分匹配及matchIt和cobalt包的使用:R语言倾向性评分:匹配
医学和生信笔记
2023/02/14
1.5K0
R语言倾向性评分:回归和分层
「R」倾向评分匹配算法——R实例学习
倾向评分算法用于校正模型中的混淆因子,这里我们先使用随机生成的数据学习该算法,然后实际分析一下去教会学校和公共学校上学学生的成绩差异。
王诗翔呀
2020/07/03
1.9K1
手把手掌握临床研究的必备绘图技能:列线图
列线图(Alignment Diagram),又称诺莫图(Nomogram图),它是建立在多因素回归分析的基础上,这里的回归既包括Logistic回归也包括cox回归,通过回归分析将多个预测指标进行整合,然后采用带有刻度的线段,表达预测模型中各个变量之间的相互关系。
百味科研芝士
2019/12/24
4.1K0
基于潜在结果框架的因果推断入门(上)
本文是一篇综述文章 「A Survey on Causal Inference」 的阅读笔记(大部分内容参照原文进行了较为通俗易懂的翻译,小部分内容加入了自己的理解)。
口仆
2021/05/13
3.9K0
基于潜在结果框架的因果推断入门(上)
一文读懂因果推测、倾向模型(结合实例)
原文题目:Propensity Modeling, Causal Inference, and Discovering Drivers of Growth 作者:Edwin Chen 翻译:张逸 校对:卢苗苗 本文共5400字,建议阅读9分钟。 本文通过举例为你介绍因果推测方法、倾向建模及增长的驱动因素。 在正文之前,先想象这样一个场景。 你刚开始一份新工作,而且最近看了《僵尸世界大战》这部电影,正处于一种怀疑人生的状态。再加上前不久你的两个初创公司因为缺乏数据开不下去了,所以你看什么都不太顺眼。 你最先
数据派THU
2018/06/07
1.1K0
干货 | 携程火车票基于因果推断的业务实践
携程作为旅游平台,跟用户需求息息相关,理解和识别各个策略/系统对转化/收益的因果关系尤为重要,在这个过程中需要将影响因变量的其他因素进行控制,但这些因素通常是复杂且难以测量的。在关系识别困难的情况下,如何使用更为科学的方法,对策略进行微观和宏观的建模分析,如何系统性的评估各种策略的长期影响,是要解决的重要问题。
携程技术
2023/09/06
9830
干货 | 携程火车票基于因果推断的业务实践
Brain: 利用机器学习揭示精神分裂症两种不同的神经解剖亚型
越来越多的研究表明传统的精神疾病诊断体系有很大的局限性。被临床医生诊断为同一种疾病的群体,可能有很大的不一致性。同时被诊断为几种疾病的人,可能表现出同样的临床症状、拥有同样的脑影像异常等。对于同一种的疾病的异质性,以往的研究都没有考虑病人和正常人的差异,只是简单的将病人进行聚类,比如以前我们解读过Nature Medicine的那篇文章《Resting-state connectivity biomarkers define neurophysiological subtypes of depression》 。这篇文章最大的创新性有两个:一个是对揭示了精分的2个神经解剖亚型,另一个就是方法的创新,即用一种全新的半监督的聚类方法,来寻找精分的亚型。 那么这是一个什么方法呢?简单点来讲,如下图所示:
悦影科技
2020/11/17
8790
Brain: 利用机器学习揭示精神分裂症两种不同的神经解剖亚型
「经验」不适合做AB实验的场景下,通过这4种方式来衡量策略效果
在日常产品迭代过程中,我们常常需要去验证某个功能、策略的改动是否符合预期,是否可以完全替代现有的方案。小流量实验往往是最常用、最直接验证因果的方式。然而有些时候,由于忘记开展实验、实验成本较高等因素,没有对策略进行AB实验,但又希望评估策略效果,这个时候,则可以通过其他因果推断方式进行佐证。
小火龙说数据
2024/03/20
5880
「经验」不适合做AB实验的场景下,通过这4种方式来衡量策略效果
推荐阅读
相关推荐
倾向性评分法(propensity score method,PSM)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档