首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数字要告诉我们什么?——读《数字原来会说谎》有感

在数字信息时代的今天,数据已经笼罩着整个人类社会。从人类结绳记事开始,到今天的数字信息时代,数字所能代表和传递的信息发生了巨大变化。数字最大特性就是客观性,客观性说白了就是一旦它展现在大众眼前时是不能更改,也不能随便解读的,是多少就是多少。数字不像文字叙述,可以这样表述,也可以换另一种方式表述,而且意思是一样的。正是因为数字客观性的优势,才使现在的社会研究、市场调查等偏向于定量研究。在调查结束后,告诉大家民众满意度很低,还是民众满意度是多少的一个数据。相信大部分人会选择后者,因为只有数据才有说服力,至少数据是客观的,形式上是可靠的。而简单的文字描述是没有办法让人判断是低还是高,毕竟高低是相对的。相信数字是没有什么不对的,但并不等于数字就一定是准确、正确的,其实,数字也是可以作假的,这一点大家也不会觉得有什么奇怪。当人们被假数字所蒙蔽时,又怎么会有正确的认识并能够做出正确的判断。在数字满天飞,信息大量充斥于各种媒体的时代,如何正确看待数字传递给我们的信息,是我们正确认识事物并做出正确事情的关键。

《数字原来会说谎》,对我们日常所见到的各种数字信息进行了解读,告诉我们如何看数字,如何理解数字告诉我们的信息,不能盲目相信数字,而且看数字要细心,不能被错觉误导。数字的重要性是不言而喻的,如果想象不来数字到底有多重要,那就想象一下如果没有数字现在的世界会是什么样子?可以说一部数字的发展历史,就是人类发展历史的另一面。"有了数学的表达,一门科学才算是能够精确推导、理论致臻完善"(前言)。用这样的标准衡量,所以人文科学算不上科学,社会科学近似于科学。是不是科学,得用数字量化,这是现在社会研究的趋势。随着互联网和大数据时代的到来,大量的数据是可以捕捉到的,分析这些数据并做出预测就成为很多媒体和研究机构重点做的事情。但是,数字不是真相,它也不能代替真相,我们看到的数字可能是真,也可能有偏差,甚至可能是假的。"数字本身不会说谎,数字只是一个信息载体,说谎的其实是使用数字的人"(前言)。这并不难理解,因为使用数字的人,总会是出于各种目的去更改数字,以使数字符合自己的初衷和出发点。当然,这种初衷和出发点也可能是出于善,即所谓善意的谎言。数字说谎是善意还是恶意在这里不重要,重要的是它是不是真的。因此,《数字原来会说谎》"将尝试用简单易懂的语言分析常见的利用数字说谎的现象,同时结合一些常见的例子进行解析"(前言)。大量举例的生动说明、分析无疑是本书最大的特色,而案例的新颖也为本书增色不少。通过阅读本书,我们不难发现,在日常生活中我们非常容易犯作者所讲到的情况,即在看待一些数字或图表时,易被使用数字或图表的人所"忽悠"。

数字简单、美丽而又神秘,只有简单的10个数字,却因为不同的排列组合,可以表达很多的意义。计算机技术、统计学、统计软件等的发展,更是将数字的呈现形式有了更加直观和美丽的展示。"学习统计学的一个重要目的是'统计推断',即在各种分布的前提下,用少量的样本数据来推断总体的特征"(P7)。使用统计学,可以把调查数据梳理得更加准确,以使调查者能得到更为真实的信息,而不是模棱两可或不准确的信息。大数据时代,最大特征就是拥有大量的数字信息,但是"数据过多既是负担,也是隐患"(P13)。由于有太多的干扰信息,我们难以梳理出因果关系,我们所认为的因果关系,可能基本属于相关关系,即 "在大数据时代,相关性的重要程度将大大增加,而因果性则变得没有那么重要"(P13)。这就为传统的统计方法留下了施展空间,所以"传统的统计方法依然具有很高的科学性和适用性"(P13)。传统的统计方法并没有退出历史的舞台,而且可能无法替代。数字信息时代,除了信息量大之外,另一个非常重要的问题,就是信息安全问题。在数字信息时代,每个人都难以将自己的信息不暴露出来,其它的不说,网购、电子邮件就完全可以将个人信息泄露出去。如此,信息安全成为信息时代最为关键的一个大问题。在经过前期调查得出来的统计数字一旦预测成功,就会使数字发布者名声大噪,诸如美国总统的选举预测等,但是即便那些十次有九次都能预测正确的机构,也会有失蹄的时候,所以统计数字有时候未必就准确,这主要取决于收集数据和分析数据的人是否考虑全面,而且要随时间变化调整自己获取数据的方式。一个人关注什么,就会收到相应的信息推荐,比如我就经常会受到当当网发来的推荐信息,因为我经常会去看有没有关于"社会学"最前沿的书。"从一个人杂乱无章的购买清单中,经过对比发现了其中的规律和不符合常规的信息,并就此得出一些真实的结论,这就是大数据"(P35)。可以看出,大数据时代就是向大众推荐有效信息的时代。

"人在后悔的时候最希望时间能倒流,人在面临抉择的时候最希望自己能够知晓未来"(P36)。电影《蝴蝶效应》告诉我们,就算时光倒流,也未必就会有我们想要的结果,因为自己想要的结果是由多种因素造成的,换一种选择,也会受原来所没有的其它因素的干扰,从而导致最终的结果未必就是自己想要的。至于知晓未来的能力,则是建立在正确分析当下信息的基础之上,分析正确,则预测正确的可能性大大增加而已。数据的客观性是其优点,其缺点则是枯燥乏味,为了让大众更容易接受数据所传递的信息,数据可视化就成为数据传递者的一项重要任务。"'数据可视化'就是将数字包含的信息通过视觉表现的形式提取出来"(P53)。学术研究现在也在追求这种数字可视化的效果,满篇文字的文章一般是PK不过有数字和图表的文章的,无论其数据是否真实,至少从形式来讲,有数字和图表已经先占上风。统计数字的准确性来源于收集数据的技巧,当收集技巧无助于收集到准确的数据时,收集的再多都是没有意义的,即通常所说的样本必须要有代表性。除此之外,还要对收集到的数据进行清洗,"清洗数据的目的,就是要获得'干净'的数据"(P62)。不干净的数据一旦没有被清理出去,其带来的负面影响是非常可怕的,甚至会干扰到结论的得出。我们看到的数字信息未必是真的,由于信息不对称的缘故,数字被人为更改,大多数人是看不出来的。在幸存者偏差的影响下,"你经历的不一定就是真的"(P72)。"幸存者偏差是指过分强调某几个典型事例而忽视其他的证据,当事人没有意识到自己已经提前进行了一个筛选过程,从而造成以偏概全的情况"(P72)。在幸存者偏差的影响下,我们会把两个没有关系的现象或事物联系起来,比如比尔盖茨退学创业,会使有些人认为读书是没有用的,但是比尔盖茨毕竟属于极少数人,不能代替大多数人,这种情况只是个例,没有代表性。"如果掉入到幸存者偏差的陷阱,那么得到的结果可能与事实恰恰相反,并且会产生严重的误导作用"(P77)。因果关系我们经常用,但是其实我们大多数时候说的只是相关关系,而非因果关系,"要证明因果关系,必须排除其他因素的干扰"(P86)。现实生活中,我们一般不太会去做排除的工作,而是很随便的就使用因果关系,这种做法现在看来显然是非常不妥的。通过阅读《数字原来会说谎》,我们会明白以后尽量不使用或少使用没有经过证明的"因果关系"说法。"数字图表--有图也不一定有真相"(P111),这章所举的例子非常直观,让读者可以理解为什么有图也不一定就有真相,如改变坐标轴、拉长图像、使用百分号或千分号等,这些看似没有问题的做法,实际也是在变相的误导大众。这种处理图像的方法确实有效果,至少在视觉上会误导人。同时这也告诉我们,在看图图像时一定要仔细,不能大概浏览,细看才能看出问题。

信息失真已经非常普遍化,比如广告,尤其是医药广告、化妆品广告,更是夸大事实,严重损害了消费者的利益。广播、电视、网络、手机等媒体传播的所谓健康信息到处在毒害中老年人,所以对虚假信息进行有效监管和打击已经刻不容缓。至于企业在运营中公布的数字也是陷阱遍地,稍微不注意就会陷入陷阱中,比如如何看待营业收入,营业收入高是否就获利高呢?答案明显是否定的。再比如环比增长与同比增长,哪个更有指导意义,这得根据实际情况去分析,不能看到数字后贸然下结论。网络谣言已经多到基本已变成为真实的地步,辟谣工作显得微弱不足。在谣言堆里,又有几个人能判断出信息的真伪呢?机器在逐渐代替人的工作,连记者的工作也已出现了替代者,"而且,机器写作的效率高得惊人,在同样文章质量和新闻规范下,机器是人工写作数量的10倍"(P191)。这样发展下去,以后还需要人再写东西吗?以现在的情形来看,"那些需要依靠重复劳动的行业更加容易被机器取代,而需要很高的专业知识和专业技能的行业在不可替代程度上会更高"(P193)。不可替代程度高不等于未来不能被代替。所以,未来数字信息对人类社会的影响将不可估量。

"没有数字,就没有人类社会的今天"(P198)。但是有数字就未必有真相,"'后真相时代'已经超越了数字本身,是人类运用数字推动科技进步后所产生的一个'陷阱'"(P199)。人类在这个陷阱中将会陷入多深,是否可以走出这个陷阱,这确实不好说,但可以肯定的是,人类需理性使用科技,理性使用数字信息。"说谎的并不是媒体或者技术本身,而是利用信息垄断优势滥用技术的人"(P199)。既然是人的因素,就需要约束人的行为,而不是找数字的麻烦。通过阅读《数字原来会说谎》,我们不仅能学到一些辨别数字所传递的信息是否为真的技巧,还能对数字的新意义有了更加全面和理性的认识。《数字原来会说谎》虽然部头不大,但是所传递的信息量非常大,它用通俗简单的语言,新颖活生生的例子去阐释每一个数字的意义和真实性。相信,任何一位读过本书的人都会受益匪浅。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180127A0OVSG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券