首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何用统计学编一篇推送

当你看到这句话的时候,请在心里跟着王学默念,贝叶斯又赢了

我以老学长的名义起誓,这是篇将统计学通俗化解释的科普推文,而不是标题党。本篇文章的完成,要感谢6位志愿者——路人贾,陈泽,路人金,果粒宸,玛丽苏,与蒸海鲜同学——愿意一次次被王学拿来在文中做统计学试验。

学习统计学的意义是什么?

让我们继续向下看。

频率学派认为,只有在先验分布有一种不依赖于主观的意义,才允许在统计推断中使用先验概率;贝叶斯学派则认为,先验概率可以是主观的,它没有也不需要有频率解释。(大可不用管上面这段鬼话在讲什么,第三学期的概率论基础课上老师会解释清楚。)

王学凭借他运营公众号两年的经验得出:如果一篇科普统计学文章的题目是《什么是统计学》《统计学的世界》,那他更适合发在读者、青年文摘等杂志上(并且文章内容严谨而认真)。如何让6名志愿者目光多停留1秒,甚至有可能点进去满足自己的好奇心,吸睛的标题非常重要。在这个过程中,路人贾等同学有多少概率点进这篇文章,并不需要用样本数据来测得,王学凭主观经验就可给出一个概率p0(其实p0完全随意也是可以的,不过可能会使贝叶斯定理显得更加神棍),即先验概率。

随后,询问6人是否会点开文章,路人贾路人金蒸海鲜果粒宸同学出于好奇点了进去,而陈泽玛丽苏同学则表示不感兴趣,因此我们计算得出“后验概率”p1。不断重复试验(我们假设6位同学可以完全忘记刚刚看过的东西),通过预估一个先验概率,然后加入实验结果,看这个实验到底是增强还是削弱了先验概率,由此得到更接近事实的后验概率p2p3……随着试验次数的增加,后验概率被不断修正并最终趋于一个稳定的值p。

这时,王学就可以说,p即为用户打开这篇推送的概率。

贝叶斯定理的伟大之处在于,无论初始给定的先验概率p如何,通过不断的“学习”,最终都会得到一个具有统计学意义的概率值。通过不断试错修正,逐步实现对事物的认识,不正是我们大脑的学习方式吗?

这就是贝叶斯定理的方法论,他所蕴含的丰厚哲学思想,使之成为了机器学习的重要基石。

-选择性偏见-

在给出评价之前,我们是如何选择样本的?如果人口中的每一个人被选入样本的概率不是均等的,那么由这样一个样本推导出的结论就会存在问题。

在进行“计算用户有多少概率点进本篇推送”实验时,尽管我们选择了6名志愿者并进行了多次重复实验,但王学预计,最后得出的结果依然会比真实值高出一些。原因不是出在样本量(大样本近似服从正态分布,小样本可以用t分布拟合),而是因为成为志愿者的6人不能代表没有成为志愿者的人,在新生群的人也不能代表不在新生群的人。

在新生群中,每名同学成为志愿者的概率并不是基本相同的,或者说,有些同学成为本次实验志愿者的可能性很大,而有一些则很小。路人金、果粒宸等经常水群的同学,会在第一时间看到征集志愿者的信息并且很有可能报名。同时,经常水群的同学浏览未知消息的可能性也更大,而没有本地发言记录的同学,可能在某些方面存在着巨大差距。

对于民调来说,优质样本越大,结果就越准,因为误差在减小;但是如果样本本身存在问题,那么民调规模越大,“垃圾”就会越堆越多、越堆越臭。还好,王学只是举了一个小小的例子。反面标杆,见1936年《文学文摘》主办的民意测验。

统计学最基本的原则之一就是一个正确抽取的样本相似于其所在的群体。民意测验真正的挑战有两个:设计并选取正确的样本;用恰当的方式从该样本中获取合适的信息,以准确地反映他们的真实感受。

-健康用户偏见-

定期健身的同学更有可能不受疾病的困扰,因为他们就是那类定期健身的人,例如路人贾和蒸海鲜。

王学无法确定,到底是一部分人通过健身变得更加健康,还是一部分健康的人喜欢健身。除非我们有两个同样的蒸海鲜同学,一个定期健身,一个很少甚至根本不去健身房。显然,这是难以实现的,毕竟我们只有一个独一无二的蒸海鲜同学。

同样,我们也无法确定一些名校毕业的学生,是因为在名校中获得提升变得优秀,还是进入名校前自身就优秀,这二者哪一方面占主导地位,除非有一组好的对照实验。

概率学提供了一系列强大且实用的工具,其中有假设检验、回归分析等都能为我们所用。如果使用得当,就能更好地辅助我们认识世界;如果使用不当,后果会不堪设想。

-王学偏见-

为什么开头讲贝叶斯,因为贝叶斯开启了王学对统计学的好奇。对于王学来说,统计学是世界观,是方法论。此外,还要谢谢某佳推荐的书《赤裸裸的统计学》,正是这本书,才促使我写下这篇推文,在不知道统计学是什么样子的时候,能对他产生一揪揪好感/撒花。

你对统计学的判断与偏见是什么,将由你自己来发现。

我们正好站在科技与个人数据的十字路口,不得不提高警惕。统计学比以往任何时候都更加重要,因为我们现在有了更多机会来充分利用数据,并从中获取有意义的信息。然而统计学公式并不会告诉我们怎样使用数据是合适的,怎样使用是不合适的。数学并不能代替判断。

《赤裸裸的统计学》

想了解更多校园逸闻,见“学长的信”系列

学长的第二封信——感谢【彩蛋】

文字|王子豪

图片|来源网络

责编|统计青年

PS:你现在所在的位置不是公众号后台

PS2:如果你想加入统计青年说,如果你想跟着老学长小学姐开车做推送,如果你热爱拍照修图晒心情谈热点,进入公众号【加入我们】叭~

PS3:好啦上一条就是在说。统计青年说要招新啦(明示)~~~

如何进入公众号后台界面?

依次点击:从微信打开文章此页面右上角的“…” 第二排第二个 or 第三个“查看公众号” “发消息” 在页面中输入“赤裸裸的统计学”即可

如果觉得有用,请记得转给身边的同学哦~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190819A06CAV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券