第一个问题也是从知乎的这个问题开始:
因果推断(causal inference)是回归(regression)问题的一种特例吗?
其中经济学大佬慧航提到过,回归只是工具,因果推断可以用,其他研究方向也可以用。
在此给出我的看法,
因果推断,是需要考虑干预得(Y|X,T),其中干预效应是主要的差异点; 而一般的多元,只是(Y|X),并没有考量到干预T的影响
所以,之前在做DML的时候,可以看到整个异质性HTE的求解经过:
因果推断笔记——DML :Double Machine Learning案例学习(十六)
我们首先基于X使用ML获得T的残差和Y的残差,之后使用lr拟合残差,不同的是,这次我们把X和T的交互项加进来,即
Y i − M y ( X i ) = τ ( X i ) ⋅ ( T i − M t ( X i ) ) + ϵ i
Y i ~ = α + β 1 T i ~ + β 2 X i T i ~ + ϵ i
然后我们就可以计算CATE的值了:
μ ^ ( ∂ S a l e s i , X i ) = M ( P r i c e = 1 , X i ) − M ( P r i c e = 0 , X i )
其中,M即最后的lr模型。
从以上DML求解无偏异质性CATE的过程看到,如果要得到无偏解,是需要经过一些求解步骤的; 关于残差正交化可得到无偏差因果效应的数学原理:https://zhuanlan.zhihu.com/p/41993542
当然,这里感觉有个特例, ( Y ∣ X , T ) 中 如果不考虑任何协变量的影响,只有 ( Y ∣ T ) 那么此时,因果关系的ATE,应该就是等于 ( Y ∣ T ) 离散回归的系数
本问题是由 多篇顶会看个体因果推断(ITE)的前世今生
和
引发的思考。
ITE代表的是无偏个体效应
再来看一下SHAP值中,可以“量化”不同特征,对个体的影响值,那么这个值,可以认为是RM的ITE吗?
虽然,SHAP值肯定是有偏的,但是也想沿着这个问题来看,SHAP值理论中的SHAP代表的怎么样的 “ITE”?在有偏的结论下,该如何解读?
之后简称sITE (此处应该需要公式推导,笔者水平就解读有限了)
个人理解:
s I T E = P r e d i c t ( Y ∣ X ) − P r e d i c t ( Y ∣ X ) 的 均 值
那么这里的实验组 - 对照组
中的对照组就是,模型预测情况下,所有个体的“平均水平”
如果其中有一个特征是,是否有优惠券,
沿着这个解读,给一个当下 “不负责任” 的结论:
值有偏,正负方向无偏
:
sITE
是有偏的,具体的值不具有参考意义;所以,不知道看到这里的看客,
有木有人,想用SHAP值来直接做“个性化推荐”的?