首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

加州大学伯克利分校丁鹏教授学术报告

2018年12月26日,【统计学论坛】在清华大学伟清楼209室成功举办。本次报告邀请到加州大学伯克利分校的丁鹏教授。报告由清华大学统计学研究中心的俞声教授主持。报告的主题是Combining multiple observational data source to estimate causal effects.

大数据时代,多个数据来源的特征可能不完全一致,如何高效利用各个数据集的信息?假设大样本的数据集(训练集)缺少某些变量,这些变量可能测量成本高,只有小部分的数据样本(验证集)才有这些变量的数据,在可忽略处理的假设下,因果效应的统计量可以通过回归填充,逆概率加权和配对的方法得到。然而,这些统计量仅仅依赖验证集数据,没有充分利用数据的信息。丁鹏教授介绍了一种新的思路,容易操作,高效利用数据且可处理非常规渐进线性(RAL)估计量。

构造估计量的表达式为:

其中为利用验证集的相合估计量,为利用主要数据集(验证集和训练集全部)的倾向犯错估计量,两项相减则均值为零。从而可以得到估计量:可以证明该估计量是相合的,其中可以选择任何有限参数下相合的估计量。估计量的渐进性质需要对估计量的方差进行估计,考虑用自助法进行方差估计。

此外,丁鹏教授对该方法的应用场景进行介绍,分析了慢性阻塞性肺病对带状孢疹的影响。大数据集包括8486个实验组病人和33944个对照组病人,验证集包括244个实验组病人和904个对照组病人,结果显示该方法大大降低了估计量的标准差,从而得到显著因果效应的结果。

与会人员合影

会议整理:刘朝阳

编辑:侯禹珊

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181227G11G7Z00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券