摘 要:本文论述的是一个关于条件概率的讨论,这个讨论起源于连专家学者都为之发生争论的一类条件概率问题。本文通过几个具体的例子,探讨条件概率计算过程中随机事件的等可能性,以及在给定条件下对条件概率公式的推导。
关键词:条件概率、等可能性、蒙提霍尔问题
引言
人们或多或少会因生产生活需要,而对某些随机事件的发生或不发生进行预测。概率学便是对这些随机事件发生的可能性进行量化研究的一门学问。经过几个世纪的发展,概率学日趋完善。目前,概率学被广泛应用于自然现象和社会现象的研究领域中。本文从人们所关注的三个经典的概率问题入手,对条件概率相关问题展开探讨。
关于等可能性的讨论
1.蒙提霍尔问题(MontyHoll problem)
下面我们将对著名的蒙提霍尔问题展开探讨[1]。关于该问题,我们采用Craig F. Whitaker的论述:“假设你正在参加一个游戏节目,你被要求在三扇门中选择一扇:其中一扇后面有一辆车;其余两扇后面则是山羊。你选择了一扇门,假设是一号门,然后知道门后面是什么的主持人,开启了另一扇后面有山羊的门,假设是三号门。接着他问你:‘你想选择二号门吗?’改变你的选择对你来说是一种优势吗?”
在玛丽莲·沃斯·莎凡特(Marilyn vos Savant)看来,改选会更有优势。这在当时引起了很大的争议,她在后面的论证中说道:
“当你从三扇门中选了门1后,这扇门后面有奖的几率是1/3,另两扇门是2/3。但接下来主持人给了你一个线索。如果奖品在门2后,主持人将会打开门3;如果奖品在门3后,他会打开门2。所以如果你改选的话,只要奖品在门2或门3后你就会赢,两种情况你都会赢!但是如果你不改选,只有当奖品在门1后你才会赢。”
莎凡特的看法,目前被大多数人认可。按照莎凡特的理解,三扇门意味着参赛者有三种选择,即有以下三种等可能的情形:
参赛者选择山羊1,主持人选择山羊2,换门,赢得汽车。
参赛者选择山羊2,主持人选择山羊1,换门,赢得汽车。
参赛者选择汽车,主持人任选一只山羊,换门将会失败。
据此,可以得出结论:换门赢得汽车的概率是2/3。然而,这个结论与我们的直觉相违背。接下来,我们将对莎凡特的分析作进一步研究,重新审视莎凡特解释的三种等可能情形。
首先,我们需要明确“概率”这个概念的涵义。根据概率的先验理论,随机事件发生的概率可以用将会成功地产生待考察事件的结果数与等可能结果总数的比值来表示。这说明,是否正确给出等可能结果是计算概率的关键。所谓的等可能结果,是指任一个可能结果不会比另一个可能结果更有可能发生。
蒙提霍尔问题涉及到条件概率的计算。也就是说,我们需要计算在先行事件发生后,另一组成事件的待考察情形发生的概率。在蒙提霍尔问题中,参赛者被要求先选一扇门,然后主持人打开一扇门后是山羊的门,最终的选择是最后剩下的那扇门。我们不妨设“参赛者在三扇门中选一扇门”为事件A,“主持人打开一扇门后是山羊的门,最终选择最后剩下的那扇门”为事件B。显然,事件A与事件B之间不是相互独立的,且先行事件A不受事件B影响。由于事件B的可能结果受到事件A的影响,分析其等可能的情形较为复杂,我们不首先从事件B的角度去分析其等可能结果,而是先从先行事件A的角度进行分析。
就事件A而言,参赛者有三种选择:山羊1、山羊2和汽车。如果参赛者没有对哪一扇门有特别偏好的话,那么这三者中任一个被选中的可能都是均等的。因为事件B的出现不会影响到事件A,所以这三种等可能结果不会因事件B出现而发生变化。据此,我们可以毫不迟疑地列出莎凡特解释的三种可能结果,并且认为它们是等可能发生的。当然,我们可以运用不独立事件的乘法定理加以验证。
当我们错误地认为主持人的选择是一个独立事件时,主持人选择山羊1与山羊2的可能性就是均等的。
主持人选择山羊1的可能情形有两种:
参赛者选择山羊2,剩下一扇门后面是汽车;
参赛者选择汽车,剩下一扇门后面是山羊2。
主持人选择山羊2的可能情形有两种:
参赛者选择山羊1,剩下一扇门后面是汽车;
参赛者选择汽车,剩下一扇门后面是山羊1。
根据上面罗列的四种情形,换门赢得汽车的概率是1/2。然而,这种错误是显而易见的。当参赛者选择山羊时,主持人只能选另一只山羊。只有当参赛者选择汽车时,主持人才能自由地选择两只山羊中的一只。这种错误与接下来要讨论的等可能性谬误在本质上是相同的。
从参赛者的角度入手,我们可以理性地推出三种可能的结果。当参赛者选择汽车时,主持人就会有两种等可能的选择(假设主持人没有特别偏好于哪一个选择)。不少人下意识地认为,这两种可能的情形与参赛者选择山羊时的两种可能情形具有同等的可能性。这样,换门赢得汽车的概率将会是1/2。然而,事实并非如此。根据不独立事件的乘法定理,“参赛者选择汽车,主持人或者选择山羊1或者选择山羊2”的可能性与参赛者选择山羊的两种情形的可能性相同。或者说,当参赛者选择山羊时,另一只山羊被主持人选择就是一个必然事件;当参赛者选择汽车时,主持人或者选择山羊1或者选择山羊2也是一个必然事件。必然事件的概率为1,因而,“参赛者选择汽车,主持人或者选择山羊1或者选择山羊2”的可能性与参赛者选择山羊的两种情形的可能性相等。
当我们认为参赛者与主持人的选择,谁先谁后都对最终结果的影响是相同时,我们便会在解答蒙提霍尔问题时犯错。显然,主持人的作用是在帮助参赛者排除干扰项,以提高参赛者获胜的几率,前提是参赛者选择换门。当主持人先把其中一种可能排除后,参赛者面对的就是二选一的局面了。这样的话,参赛者获胜的概率将提高到1/2。当我们增加可选择的门的数量时,这种先后选择的次序的区别将会变得非常明显。例如,我们把门增加到1000扇,当参赛者选中一扇门之后,主持人在未选中的门中打开998扇空门,只留一扇门。任何一个理性的人都不会认为,这与参赛者面对二选一获胜的几率是相同的。
此外,还有一种可能存在的认知误区:山羊1、山羊2和汽车被参赛者选中的概率是一样的,每一扇门后面可能是汽车的概率均为1/3。无论主持人是否打开一扇门后是山羊的门,都不会改变参赛者选中汽车的概率。因此,不管换不换门,参赛者选中汽车的概率都是1/3。当我们用孤立、静止的眼光来看待蒙提霍尔问题时,便会产生刚才提到的认知错误。“参赛者在三扇门中选择一扇门”作为先行事件,在我们讨论的范围内是不会受到后面事件影响的,因而它具有相对独立性,发生的所有情形都是等可能的。事件“主持人打开一扇门后是山羊的门,最终选择最后剩下的那扇门”受到先行事件的影响,它与先行事件之间不是相互独立的。因而,当后面的事件发生后,我们不能孤立地对待它们。在后者没有发生之前,每扇门后面是汽车的概率为1/3,后者发生后,最后剩下的那扇门后面是汽车的概率已然发生变化。我们的眼光还停留在参赛者初选时的状态,显然是不对的。
2.男孩女孩悖论
男孩女孩悖论是由美国数学家马丁·加德纳(Martin Gardner)最早提出来的。它描述的是这样两个问题:
1. 琼斯先生有两个孩子,大一点的孩子是个女孩。两个孩子都是女孩的概率是多少?
2. 史密斯先生有两个孩子,至少有一个是男孩。两个孩子都是男孩的概率是多少?[2]
加德纳认为答案分别是1/2和1/3。问题2自提出以来便是争论的焦点。加德纳在后来表示,问题2的答案也可以是1/2。下面将详细探讨这一问题。
两个孩子所有的等可能情形有:哥哥妹妹、哥哥弟弟、姐姐弟弟、姐姐妹妹。这四种情形涵盖了所有的可能情形。至少有一个是男孩,意味着这两个孩子或者只有一个是男孩或者两个都是男孩,并且“只有一个是男孩”和“两个都是男孩”不会同时成立。按照不相容析取解释,问题2可以看作是求先行事件“史密斯先生有两个孩子”和事件“或者只有一个是男孩或者两个都是男孩”共同发生时产生待考察情形“两个孩子都是男孩”的概率。
后面事件对先行事件作了进一步约束,说明先行事件受到后面事件影响。因为后面事件在讨论的范围内不会再受到其他东西的影响,所以,为了简化计算过程,我们从后面事件的角度入手。当我们认为“只有一个是男孩”比“两个都是男孩”更有可能发生,即“孩子A是男孩,孩子B是女孩”、“孩子A是女孩,孩子B是男孩”和“孩子A、B都是男孩”具有同等的可能性,那么,两个孩子都是男孩的概率就是1/3。然而,事实并非如此。在“只有一个是男孩”的两种情形中,任一个孩子是男孩的概率均为1/2,另一个孩子必定是女孩。而“两个都是男孩”的情形中,任一个孩子是男孩的概率为1,另一个孩子必定是男孩。换言之,“只有一个是男孩”和“两个都是男孩”是等可能发生的。所以,两个孩子都是男孩的概率为1/2。
当然,我们也可以从先行事件的角度进行分析,有四种等可能的情形:哥哥妹妹、哥哥弟弟、姐姐弟弟、姐姐妹妹。我们需要注意一点,与前面讨论的蒙提霍尔问题不同,在这里,先行事件受到后面事件的影响。这样,先行事件发生的等可能结果受到后面事件的影响。
我们可以根据先行事件的四种等可能结果列出以下四种情形:
两个孩子是哥哥妹妹,其中一个是男孩,另一个是女孩;
两个孩子是哥哥弟弟,两个孩子都是男孩;
两个孩子是姐姐弟弟,其中一个是男孩,另一个是女孩;
两个孩子是姐姐妹妹,至少有一个是男孩的情形不存在。
考虑到后面事件对先行事件的影响,情形的可能性等于情形加上情形的可能性。也就是说,两个孩子都是男孩的概率为1/2。相当一部分的人相信,剩下的三种可能结果是等可能发生的。也许他们并没有意识到事件“或者只有一个是男孩或者两个都是男孩”会对先行事件产生影响,尽管他们是根据后面事件排除了先行事件四种等可能结果中的一种。
就这个问题来说,还有一种常见的认知误区。那就是,认为第种可能情形从所有可能情形中排除掉,意味着姐姐妹妹这种两孩类型是不可能实际发生的。显然,事件“至少有一个是男孩”并没有这样的断言,题干中也没有这种隐含的前提。事件“至少有一个是男孩”的一种恰当的解释是,如果第一个出生的孩子是男孩,那么第二个出生的孩子或者是男孩或者是女孩;如果第一个出生的孩子是女孩,那么第二个出生的孩子必定是男孩。这说明,姐姐妹妹类型依然是可能发生的,只不过在这里它并没有实际发生而被排除掉。
若把男孩女孩悖论改写成:在所有的两孩家庭中,有若干个家庭至少有一个孩子是男孩,问两个孩子都是男孩的家庭占至少有一个孩子是男孩的家庭的比值?我们的分析单位将不再是个人,而是家庭。
通过分析该问题,我们知道两孩家庭共有四种等可能的类型:哥哥妹妹、哥哥弟弟、姐姐弟弟、姐姐妹妹。后面事件“有若干个家庭至少有一个孩子是男孩”并没有对先行事件作进一步约束,只不过是在表明它是先行事件四种等可能类型中的三种。因此,先行事件具有相对独立性。至少有一个孩子是男孩的家庭的概率是3/4,姐姐妹妹类型的两孩家庭的概率是1/4。待考察的结果是两个孩子都是男孩的家庭,并求它占至少有一个孩子是男孩的家庭的比值,这表明我们要统计的是除姐姐妹妹类型外的两孩家庭中,两个孩子都是男孩的家庭的概率。与前述的男孩女孩悖论不同,这里并没有排除掉两孩家庭中姐姐妹妹类型,即并没有认为姐姐妹妹类型家庭是没有实际发生的,而是在统计的时候把这种类型的家庭忽略掉。因此,两个孩子都是男孩的家庭占至少有一个孩子是男孩的家庭的比值是1/3。
3.扑克牌问题
接下来要提到的扑克牌问题,它曾导致概率专家发生争论。这个问题的完整表述是:
从一副扑克牌中取出A和K,即四张A和四张K,共八张牌。从这八张牌中发两张牌给你的朋友。如果她看到牌并声明她手中有一张A(她的话是诚实的),她手中的牌均为A的概率为多少?如果她转而声明她手中其中一张牌是黑桃A,那么她手中的两张牌均为A的概率为多少?这两个概率相同吗?
据信,这个问题一直是争论的焦点[3]。现在我们开始对该问题展开探讨。显然,这是一个条件概率问题。先看第一个问题,我们不妨把它看成是先行事件“从一副扑克牌中抽出的四张A和四张K中发两张牌给你的朋友”和事件“其中有一张是A”共同发生时产生待考察情形“两张牌都是A”的概率计算问题。显然,先行事件受到后面事件的影响。先行事件在这里不具有相对独立性,为了使推理过程简便,我们选择从后面事件的角度出发,分析后面事件的所有等可能情形。又因为两张牌都是随机抽取的,所以可以列出以下四种等可能情形。
已知的这张牌是黑桃A,另一张牌可能是红桃A、梅花A、方块A、黑桃K、红桃K、梅花K、方块K;
已知的这张牌是红桃A,另一张牌可能是黑桃A、梅花A、方块A、黑桃K、红桃K、梅花K、方块K;
已知的这张牌是梅花A,另一张牌可能是黑桃A、红桃A、方块A、黑桃K、红桃K、梅花K、方块K;
已知的这张牌是方块A,另一张牌可能是黑桃A、红桃A、梅花A、黑桃K、红桃K、梅花K、方块K;
因为我们需要考察另一张牌也是A的情形,所以我们需要把上述四种等可能情形进一步分为28种等可能的结果。据此,我们可以得出结论:两张牌均为A的概率是3/7。
再看第二个问题,我们不妨设先行事件是“从一副扑克牌中抽出的四张A和四张K中发两张牌给你的朋友”,后面事件为“其中一张牌是黑桃A”。先行事件被后面事件进一步约束,即先行事件受后面事件影响。所以,为了计算方便,我们从后面事件的角度入手,考虑其等可能发生的所有情形。在所讨论的八张牌范围内,任一张牌都有同等的机会被抽取到。因此,可以列出以下七种等可能情形:
已知一张牌是黑桃A,另一牌是红桃A;
已知一张牌是黑桃A,另一牌是梅花A;
已知一张牌是黑桃A,另一牌是方块A;
已知一张牌是黑桃A,另一牌是黑桃K;
已知一张牌是黑桃A,另一牌是红桃K;
已知一张牌是黑桃A,另一牌是梅花K;
已知一张牌是黑桃A,另一牌是方块K。
从上面罗列出来的7种等可能情形中,我们发现有3种情形使得后面事件成功地产生“两张牌均为A”的结果。因此,两张牌都是A的概率为3/7。
现在,我们探讨一下争论观点中一个典型的错误。这便是前面提到的等可能性谬误。下面给出这种错误的分析过程。
两张扑克构成的组合有
=28种等可能的情形。如果两张扑克中的一张是一个A,那么这两张牌中至少有一个是A的组合就有22种。在这22种组合中只有6种均为A,因此两张牌均为A的概率是6/22,即3/11。
当我们没有充分认识到后面事件对先行事件的影响时,很有可能会犯等可能性谬误。即便是概率专家,有时也会犯这种错误。毫无疑问,两张扑克构成的28种组合是等可能的。然而,28种组合的等可能性会受到后面事件的影响,因为后面事件对先行事件作了进一步约束——两张扑克中的一张是一个A。我们会下意识地认为,排除不包含A的组合后,剩余的所有组合还具有等可能性。事实并非如此。如果我们承认这是一个随机事件,那么,另一张扑克是剩下7张牌中任一张的可能性是均等的。这意味着,22种含有A的组合的可能性并不是均等的。认为它们是等可能的,就犯了等可能性谬误。
通过对上述三个经典条件概率问题的分析,我们对条件概率有了更加深入的认识。两个事件共同发生,且其中一个事件是在另一个事件已经发生的条件下发生的,如何正确得出这种情况下待考察情形发生的概率,便是我们现在所讨论的问题。显然,正确找到随机事件的所有等可能结果,是解决此问题的关键。
条件概率的推导
在解答上面的条件概率问题时,我们把一个条件概率问题视作先行事件和后面事件共同发生时产生待考察情形的概率问题。即,任一个条件概率问题,都可以视作:在先行事件A发生的前提下,后面事件B的待考察结果发生的概率。需要注意的是,先行事件A和后面事件B不能是待定的具体事件,而必须是具体的待定事件(即具体的随机事件)。我们需要考虑随机事件B在先行事件A发生的条件下可能会出现的所有情形。这并不意味着所有可能会出现的情形一定是等可能发生的,因为事件A与事件B之间可能会存在相互影响。蒙提霍尔问题向我们展示了先行事件对后面随机事件的影响,而男孩女孩悖论和扑克牌问题告诉我们,后面随机事件也会影响到先行事件。
当事件B的发生不会影响到先行事件A时,以先行事件A为分析对象,则它发生的所有可能结果都是等可能的。这是因为,在我们讨论的范围内,先行事件A具有相对独立性。
当事件B影响到先行事件A时,虽然我们也可以以先行事件A为分析对象,但考虑到事件B的先行事件A的所有可能结果并不能保证是等可能发生的。这需要我们作进一步分析,即还要考虑事件B发生的等可能结果对先行事件A产生了怎样的影响。此时,为了简化分析过程,我们可以以事件B为分析对象,考虑其发生的所有等可能的结果,因为再也没有什么东西(在讨论范围内)可以影响到事件B了。
综上所述,我们可以把一个条件概率问题规范为:先行事件A发生的前提下,后面事件B的待考察结果发生的概率,并且它们都是随机事件。根据概率的先验理论,我们可以列出它们之间的条件概率公式:
式中,P(B|A)是指先行事件A发生的条件下,事件B的待考察情形发生的概率;
M(B|A)指先行事件A发生的条件下,使事件B成功地产生待考察的等可能结果的数目;
NA指先行事件A的所有等可能结果数。对于先行事件具有相对独立性的情形而言,NA是先行事件A的所有先验的等可能结果;对于先行事件受后面事件影响的情形来说,NA是考虑了后面事件影响的先行事件A的等可能结果数。
先行事件A与后面事件B共同发生时产生待考察情形的概率也可表示为:
其中,N(B|A)是指先行事件A发生的条件下,事件B的所有等可能结果数。
当先行事件A具有相对独立性时,可优先考虑(1)式。如果先行事件A受到后面事件B的影响,可优先考虑(2)式。
当后面事件被划分为B1,B2,B3,…,Bn一个完备的事件组,任两个事件的交集都为空,并且发生的概率并不一定相同时,我们就无法直接通过上面的式子进行解答了。作为描述两个事件的条件概率间关系的法则,贝叶斯公式似乎可以用来处理上述问题。根据贝叶斯公式的定义,贝叶斯公式是用来处理一个随机事件中某个事件及其假定的具体事件间关系的。但是,在后面给出的两者间条件概率满足的关系中,又把假定的具体事件当作与前面事件处于相同限制条件下的随机事件来处理。这意味着,贝叶斯公式仅仅是用来描述两事件共同发生的结果与它们发生的次序无关的问题。当我们用它来解答扑克牌问题时,我们能得到正确的答案。然而,如果我们用它来处理男孩女孩悖论问题2时,贝叶斯公式就不能指引我们找到正确的答案。
以男孩女孩悖论问题2为例,我们使用贝叶斯公式来计算它的概率。首先,我们把“至少有一个孩子是男孩”设为事件B,事件A是“两个孩子都是男孩”。
根据贝叶斯公式,在满足假设的条件下,我们知道事件A和事件B之间满足关系:
因为P(A)=1/4,P(B|A)=1,P(B)=3/4。所以,P(A|B)=1/3。然而,根据我们之前的讨论,答案应该是1/2。这表明,贝叶斯公式不能用来处理共同发生的概率与发生顺序有关的情形。
由于贝叶斯公式不具有普适性,所以我们要寻找新的方法去处理刚才提到的问题。从概率的先验理论入手,随机事件发生的概率可以用将会成功地产生待考察事件的结果数与等可能结果总数的比值来表示。当我们用A1,A2,A3,…,An来分别表示使B1,B2,B3,…,Bn成立的先行事件时,我们可以把它分为n个独立的事件。
假设对于一个随机事件A,B是事件A的假定。事件B被划分为B1,B2,B3,…,B一个完备的事件组,任两个事件的交集都为空。A1,A2,A3,…,An是使B1,B2,B3,…,Bn分别成立的先行事件,且P(Ai),P(B|A)>0。那么,先行事件A与后面事件B之间的关系有:
式中,i=1,2,…,n;
P(Ai)是指先行事件Ai在事件A中发生的概率;
P(Bi|Ai)是指在先行事件Ai的条件下,使事件Bi成功地产生待考察结果的概率。
P(B|A)是指在先行条件A的条件下,使事件B成功地产生待考察结果的概率。
P(Ai|B)是指使事件B成功地产生待考察结果时,先行事件Ai发生的概率。
下面,我们用男孩女孩悖论问题2对上面的公式进行检验。设“史密斯先生有两个孩子”为先行事件A,“至少有一个是男孩”是事件B。事件B可以表述为“或者只有一个男孩或者两个都是男孩”,根据分析,我们发现“只有一个孩子是男孩”和“两个孩子都是男孩”是等可能发生的。所以,可设“只有一个孩子是男孩”为B1,“两个孩子都是男孩”为B2。使B1成立的先行事件为A1,使B2成立的先行事件为A2。。那么,P(A1)=P(A2)=1/2。因为待考察的结果(待定的具体事件)是“两个孩子都是男孩”,所以,对于事件B1来说,P(B1|A1)=0;对于事件B2来说,P(B2|A2)=1。因此,
P(B|A)=(1/2)×0+(1/2)×1=1/2
这与我们之前讨论的答案一致。
总结
本文探讨了三个经典的条件概率问题,强调了找到等可能的结果对概率计算的关键作用。此外还在给定的条件下,推导出了条件概率的计算公式。
参考文献
[1]WU Y J. "Monty Hall Problem" and its extension and application. Middle School Mathematics Monthly, 2009(05). (in Chinese)
[2] Wang Hong-lin. (2024, October 31). A Casual Discussion on the "Boy or Girl" Paradox. ScienceNet.cn.https://blog.sciencenet.cn/blog-3005681-1457784.html(in Chinese)
[3]Irving M. Copi, Carl Cohen, Kenneth McMahon. Introduction to Logic. Routledge, 2014.page 643.(in Chinese)