大数据中的大,最重要的表现就是指利用更多的数据,最好是所能收集到的所有的数据,而不再仅仅依靠一小部分数据。过去我们也分析数据,但是因为分析技术以及硬件条件方面的限制,我们处理的数据的能力有限,因此我们只能收集和处理少量数据。因此,在面临大量的数据时,只能采取随机抽样,争取用较少的数据获得最多的信息。人口普查就是最为典型的处理,美国在1880年进行人口普查,耗时8年才完成数据汇总,但是8年时间对于人口的变化来说,已经足够长,这样得出的普查数据已经失去了时效性。为了追求时效性,只能抽样处理。
因此,在处理数据的能力不足的情况下,随机抽样是不得已的处理。而随机抽样之后的数据要能代表总量,必须坚持一些基本原则,其中最为重要的就是要保持样本的随机性。随机抽样曾经取得了巨大的成功,成为现代社会、现代测量领域的主流,但其显然是一种偷懒的做法,是一条捷径。2016美国总统大选,美国一些民意调查机构利用这种抽样结果预测总统选举胜出者,结果惨败,很重要的原因就是他们还是采取传统的手段来获取预测信息,结果被误导。最后特朗普胜出选举,完全出乎这些民调机构的意料。
大数据的处理方式与小数据抽样完全不同,因为其处理的对象不再是抽样的,而是全样本数据,在互联网的世界中,每天都产生大量的数据,像Google以及Twitter每天都被动地产生大量的数据,而对于这些海量的数据,用计算机可以轻易地进行处理。抽样对于一些可能重要的细节的遗漏是致命的,因为这很可能导致最终的结果是错误的。即使在大多数情况下是正确的,但是例外的错误细节可能是致命的。
这里举两个大数据运用的例子。一个是谷歌,其对于流感趋势的预测,不是依赖于对随机样本的分析,而是分析整个美国几十亿条互联网检索记录,这可以极大地提高微观层面分析的准确性。另一个例子是Xoom公司的例子,这家公司是专门从事跨境汇款业务的公司,其充分利用大数据的支持来分析汇款风险获得成功。在2011年,它注意到用“发现卡”从新泽西州汇款的交易量比正常情况多一些,于是系统启动报警。这些发现卡的交易每笔交易都是合法的,但是这只披着合法外衣的犯罪集团在试图诈骗。
大数据的背后进行的全样本的分析,其背后的实质是指不用随机分析法这样的捷径,而采用所有数据的方法。
社会科学可能是被“样本=总体”撼动得最为厉害的学科。因为社会科学过去曾经非常依赖样本分析、研究和调查问卷。而这些在全样本可以容易收集与处理的情况下,显然已经失去了意义。因为如今我们可以很轻易地收集到过去无法收集到的信息,不管是通过移动电话表现出的关系,还是通过Twitter信息表现出的感情。
全球最权威的复杂网络研究专家之一巴拉巴西和他的同事研究了人与人之间的互动,通过调查四个月内所有的移动通信记录,通过观察数百万人的所有通信记录,发现一些新的结论。他们发现,如果把一个在社区内有很多连接关系的人从社区关系网中剔除掉,这个关系网会变得没那么高效但却不会解体;但是如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除,整个关系网很快就会破碎成很多小块。这说明一般来说,无论是针对一个小团体还是整个社会,多样性是有额外价值的。
大数据意味着更多的数据,在数据收集与分析成本低廉的情况下,分析所能获得所有数据变得可能,最终的分析结论显然也会更准确。大数据时代的到来也意味着传统的抽样技术以及分析方法已经失去了意义。社会科学研究的变革时代也已经到来。
领取专属 10元无门槛券
私享最新 技术干货