昨天上午,有这样一些高考考生们,他们在翻开全国II卷语文作文页时,突然有一种登顶珠峰的赶脚——
激动、缺氧、头疼、想吐……
新浪教育2018高考作文题调查
就连小编朋友圈里那些专业码字的小伙伴们也失落了,纷纷表示这套考题真难,已经没有足够的知识储备来吐槽了。
其实这道作文题目的故事并不难理解,只是题干上短短的100多字没能把事情的来龙去脉说明白。小编就先说说这个大数据学上的经典案例。
先来认识一下故事的男主,美国统计学家亚伯拉罕·瓦尔德(Abraham Wald)。
“确认过眼神,我是你看不懂的人”
二战时,盟军为了提高生还率决定对轰炸机进行装甲加护,怎么加?这是个问题。简单粗暴一点,全都加上装甲!那也不行,装甲加的太多,飞机就成了坦克,即便能飞起来,作战效率也会大大降低。
看来好钢只能用在刀刃上,那么哪个部位是“刀刃”,最值得把装甲加厚来抵御敌方炮火呢?这又成了一个思维陷井。
人们决定采用统计调查的方式来解决,仔细检查每一驾战斗机返回时受到的损伤程度,计算出飞机整体的受弹状况。不久,统计数据很快出炉:盟军飞机普遍受弹最严重的地方是机翼,有的几乎被打成了筛子;相反,受弹最轻的地方是驾驶舱及尾部发动机,许多飞机的驾驶舱甚至连擦伤都没有。正当所有人拿着这份确凿无疑的报告准备给机翼加厚装甲时,我们的男主出场了。
瓦尔德提议应该加固飞机的发动机和座舱,因为这两个位置中弹的飞机,都没有回来。它们是一份沉默的数据——“死人不会说话”。最后的事实证明,这是一个无比正确的选择。
当然,盟军指挥层在涉及到众多前线飞行员生命安全的问题上,并不会只凭瓦尔德的三言两语就采纳他的观点。瓦尔德为了证明自己的观点写出了近百页的论文,用了上百个数学公式。
这就是他的论文,《A Method of Estimating Plane Vulnerability Based on Damage of Survivors》(一种通过幸存飞机损伤情况判断飞机要害部位的方法)
在这篇论文里,瓦尔德用数值分析等方法,利用了一组虚构的数据,得出结论:发动机是最要命的地方,被击中一弹,就有39%的概率坠毁。弹孔最稀疏处,恰恰是要害处,因为没怎么被击中要害的飞机才能够成功返航、进入统计样本。
沃尔德根据虚构的数据算出:
1. 飞机最怕被20毫米机炮击中发动机,挂掉的概率是 53.4% ;
2. 第二危险的是被7.9毫米机枪击中驾驶舱,有 19.4% 的概率坠毁;
3. 综合来说,发动机是最致命的地方;
4. 综合来说,被20毫米机炮击中掉血最多。
“没有办法,我就是这么强大!!!”
这个故事的核心,就是“幸存者偏差”。日常生活中,我们也经常遇到类似的概念谬误。
城管总喜欢暴力执法???
那是因为正常执法的城管不会被报道,人们不会关注。
年轻人不用就业、直播喊麦就能年入百万???
那是因为更多的无人关注的主播不会被“推荐”到我们的手机屏上。
网上任何一个新闻舆情都会造成正反两方激烈的争论???
对一个新闻事件抱有越极端(同意或反动)看法的用户越可能有动力去留言、评论,还有相当多的人不去留言,而那些懒得去评论的用户就是无回应的样本——他们的真实看法可能会扭转现有的结论。
传统统计学的缺陷在于,结论的成功依赖采样的绝对随机性,就好像盟军空军遇到的困难一样,在现实中采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。
飞机上脆弱的部位已经被沃尔德加固补强了,那么我们思维中的薄弱之处该如何加强呢?随着科学技术的不断发展,人类已经进入了大数据时代。《大数据时代》一书的作者、英国牛津大学教授维克托·迈尔曾经提出数字化时代,大数据与三个重大的思维转变有关。其中第一点便是“要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。”
维克托·迈尔在《大数据时代》一书中提过,在信息处理能力受限的时代,世界需要数据分析,却缺少用来分析所收集数据的工具,因此随机采样应运而生,它也可以被视为那个时代的产物。如今,计算和制表不再像过去一样困难。感应器、手机导航、网站点击和twitter被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候,它就没有什么意义了。数据处理技术已经发生了翻天覆地的改变,但我们的方法和思维却没有跟上这种改变。
近年来,我们在移动端的消费、娱乐和阅读行为都被大数据及其AI所影响着,看懂大数据、掌握大数据思维对于指导我们的生活和工作都有十分重要的意义。在此,小编强烈想大家推荐大数据学中的经典作品《大数据时代:生活、工作与思维的大变革》。没准这本书里所讲的内容,也正是你平时没有收回到的信息……
辽宁号主编:刘允
领取专属 10元无门槛券
私享最新 技术干货