我们常说,现在是处于一个数据的时代,小到一个个人,都可以有一堆的数据指标来衡量你的业绩、工作、生活、消费、健康、信用,大到宏观的经济发展,地区形势、全球气候,所以想要更加清晰的了解这个世界,我们需要从了解形形色色的数据开始。
但是很多时候数据可能不像展示的那么客观,公正,反而会被别有用心之人利用,来干扰认知,产生正确的误会。
一些客观的数据可能存在误导性。
数据标准化,如何衡量一个国家的发展水平那,对了,有一个标准化的概念,那就是GDP,也就是国内生产总值,但是多年来对于反对使用GDP衡量一个国家是否富裕的声音一直很多,GDP没有考虑发生在市场交易以外的价值创造行为,也没有充分的考虑环境恶化的成本,没有考虑收入的分配,未考量人们真实生活感受。虽然提出来很多的符合指标,但是向GDP一样,没有那个指标可以做到尽善尽美。
所以,所有的、把抽象的概念标准化的过程,都是建立在人为的价值判断之上的。无论是由谁来设计一个把抽象的概念标准化的方案,都只能代表一种特定的价值判断而已,并不意味着,这就是一个客观的选择。
其次是数据的采集,人们采集到的数据永远不可能精准地反映现实,虽然统计学已经在极力的挽救,但是透过数据看现实,就像是透过磨砂玻璃看东西一样——你可以看到一个大致的轮廓,但永远都无法完全看清楚。
相关性不代表因果性,典型的例子就是下雨的时候,街上有很多人带着伞,但我们并不能说,是雨伞导致了下雨。
数据分析中还有一个更重要的问题是,一切数据分析结果的背后,都存在着人为的选择——不管是有意识的,还是无意识的。
所以一些即使是看似客观的数据其实也是具有误导性的。
如何才能避免自己被数据误导那?
首先就是要看数据由谁提供,越是官方的数据往往会越权威。
其次是这个概念是谁创造,如果是个人创造,你听着图一乐就行,但是如果是业界公认,那你还是需要仔细辨别,我们会很容易忽视了“抽象概念”跟“真实世界”之间的那道屏障;忽视了所有概念背后都隐含着人们的价值判断;忽视了并不是所有概念都能够被量化,量化的方式也不只有一种。所以,当我们看到一个数据,衡量的是一个人为创造出来的概念的时候,最多只能把它理解为,是真相的一个切面,而不能把它当作全部的真相。
然后就是数据的采集方式,是随机获取还是特定的研究目标,还有就是研究的问题设置是否合理,受试者是否都在讲真话。
最后就是要确定数据是否在告诉我们因果关系,如果是需要注意因果是否被倒置。
因为数据也会存在各种人为或非人为因素的干扰,数据无法向我们展现出她真正的面目,数据研究分为三个步骤,在数字标准化、数据收集、数据分析中都尊在一些问题,而避免误导的行动就是警惕数据的产生过程。在看到一个数据的时候,记得在脑子里多画几个问号,想一想,这个数据是谁提供的,其中有没有利益关系?这个数据衡量的是不是一个人为创造出来的概念?数据研究采用的样本是不是某个特定的人群?研究结论是不是把相关关系当作了因果关系?等等。
领取专属 10元无门槛券
私享最新 技术干货