设想这样一个场景,一位专家来到你的学校,对着所有同学说:我是一位数据分析专家,我现在要统计你们的一些信息,但是我不会泄露你们的个人隐私,我也不会把这些数据交给公安部门。紧接着,他说道:我想要调查的问题是,你们每个大学生在校期间是否发生过性行为?
这时候,想必没有哪个发生过的大学生会真实的回答,这可是个人隐私,并且极为敏感的个人隐私。
那该怎么办,专家还想要得到真实的数据去研究,但是大学生在现有的隐私保护条件下不愿说出真相。有一个模型叫作随机响应模型,或许可以解决这个问题。
随即响应
调查问题:你是否在校期间发生过性行为?
被调查者,也就是学生,在回答该问题时采用抛硬币的方式,规则如下:
第一次抛硬币:
如果正面朝上,回答者实事求是回答问题。发生过Yes,没有发生过No。
如果反面朝上,回答者再抛一次硬币。
第二次抛硬币:
如果正面朝上,回答发生过Yes。
如果反面朝上,回答没有发生过No。
假设测试总人数N,回答Yes的总人数N*,真实发生过的人数比例为π。
第一次抛硬币,回答Yes人数:(1/2)πN
第二次抛硬币,回答Yes人数:(1/2)(1/2)N
所以,N*=(1/2)πN+(1/2)(1/2)N
π=2N*/N-(1/4)
专家如果使用这个方法,即使回答者的内容有些是随机的,但是专家仍然可以通过简单计算,得到正确的发生过性行为人数的比例,得到正确的统计信息。