2018年12月26日,【统计学论坛】在清华大学伟清楼209室成功举办。本次报告邀请到加州大学伯克利分校的丁鹏教授。报告由清华大学统计学研究中心的俞声教授主持。报告的主题是Combining multiple observational data source to estimate causal effects.
大数据时代,多个数据来源的特征可能不完全一致,如何高效利用各个数据集的信息?假设大样本的数据集(训练集)缺少某些变量,这些变量可能测量成本高,只有小部分的数据样本(验证集)才有这些变量的数据,在可忽略处理的假设下,因果效应的统计量可以通过回归填充,逆概率加权和配对的方法得到。然而,这些统计量仅仅依赖验证集数据,没有充分利用数据的信息。丁鹏教授介绍了一种新的思路,容易操作,高效利用数据且可处理非常规渐进线性(RAL)估计量。
构造估计量的表达式为:
其中为利用验证集的相合估计量,为利用主要数据集(验证集和训练集全部)的倾向犯错估计量,两项相减则均值为零。从而可以得到估计量:可以证明该估计量是相合的,其中可以选择任何有限参数下相合的估计量。估计量的渐进性质需要对估计量的方差进行估计,考虑用自助法进行方差估计。
此外,丁鹏教授对该方法的应用场景进行介绍,分析了慢性阻塞性肺病对带状孢疹的影响。大数据集包括8486个实验组病人和33944个对照组病人,验证集包括244个实验组病人和904个对照组病人,结果显示该方法大大降低了估计量的标准差,从而得到显著因果效应的结果。
与会人员合影
会议整理:刘朝阳
编辑:侯禹珊
领取专属 10元无门槛券
私享最新 技术干货