以一种方式查看数据可以讲述一个故事,但是有时以另一种方式查看数据可以讲述相反的故事。了解这一悖论及其发生的原因至关重要,并且可以使用新工具来自动检测数据集中的这一棘手问题。
当我们想研究数据中的关系时,我们可以绘制,交叉制表或对该数据建模。当我们这样做时,我们可能会遇到这样的情况:从单个数据集的两个不同视图中看到的关系导致我们得出相反的结论。这些都是辛普森悖论的案例。
找到这些案例可以帮助我们更好地理解我们的数据并发现有趣的关系。本文提供了这些情况发生的位置的一些示例,讨论了它们如何发生以及为什么发生,并提出了在您自己的数据中自动检测这些情况的方法。
什么是辛普森悖论?
辛普森悖论是指一种情况,您认为您了解两个变量之间的关系方向,但是当您考虑其他变量时,该方向似乎相反。
为什么发生辛普森悖论?
之所以发生Simpson悖论,是因为数据的分解(例如,将其拆分为子组)可能导致某些子组与其他子组相比具有不平衡的表示形式。这可能是由于变量之间的关系,或者仅仅是由于数据已被划分为子组的方式。
范例1:入场
辛普森悖论的一个著名的例子出现在加州大学伯克利分校录取数据。在此示例中,从总体上看研究生录取数据时,看来男人比女人更容易被录取(性别歧视!),但是当单独查看每个部门的数据时,男人比女人更容易被录取。大多数部门中的女性。
这是为什么发生这种情况的说明:
不同部门的接受率非常不同(有些部门比其他部门“难”得多)
更多女性申请“更难”的部门
因此,女性的总体接受率较低
这导致我们问:哪个视图是正确的视图?男人或女人的接受率更高?这所大学的招生是否存在性别偏见?
在这种情况下,似乎最合理的结论是,按部门查看招生率更为合理,而分类的观点是正确的。
范例2:棒球
辛普森悖论的另一个例子可以在两个著名棒球运动员,杰特和大卫。1995年和1996年,David Justice分别拥有较高的打击率,但两年来,Derek Jeter的打击率均较高。
两位选手的平均命中率均比1995年高
1996年,德里克·杰特(Derek Jeter)的蝙蝠数量明显增加。1995年,戴维·正义案(David Justice)的人数更多
因此,Derek Jeter的平均击球率更高
Knowledge Studio决策树显示了1995年和1996年每个球员的击球次数不平衡
辛普森悖论怎么办
没有足够的领域知识,就很难知道对两个变量之间的关系的哪个观点更有意义-一个变量是否包含第三个变量。
但是在考虑如何处理辛普森悖论之前,我们需要找到一种在数据集中有效检测它的方法。如前所述,只需分解列联表或数据点图并研究结果,便可以找到辛普森悖论(“辛普森对”)的实例。但是,还有其他方法可以使用模型找到辛普森对,例如:
通过建立决策树并比较分布,或者
通过建立回归模型并比较系数的符号
两者都有好处,但是,这会很快变得困难,尤其是在处理大型数据集时。很难知道数据集中哪些变量可能会颠倒另外两个变量之间的关系,并且很难手动检查所有可能的变量对。假设我们有一个只有20个变量的数据集:我们需要检查将近400对,以确保找到所有Simpson's Paradox的情况。
即使我们已经搜索(并找到)所有可能的辛普森配对,也要考虑其他挑战。这些挑战与解释有关,例如:
趋势是否需要在每个子组中反转才能将某物视为“辛普森配对”?还是大多数亚组足够?
子组的大小重要吗?如果趋势在许多小的子组中发生了逆转,而在最大的子组中却没有,该怎么办?
当试图自动检测辛普森悖论时,这些最后的挑战不会消失,但是通过被迫提前做出决定,我们至少可以以系统且一致的方式处理它们。
结论
辛普森悖论是一个棘手的问题,但是出色的分析师或数据科学家可以使用正确的工具和知识来处理它。我希望我的文章可以帮助其他人以更轻松地了解此问题。
领取专属 10元无门槛券
私享最新 技术干货