一、大数据的力量
我们通过几个例子来看一下大数据的力量。
1、谷歌流感趋势预测。
2009年,一种新的流感病毒甲型H1N1引起了全世界的恐慌。他到底会出现在哪里?美国的疾控中心也难以及时回答。在美国,医生在发现新型流感病例时会告知疾控中心,但患者可能患病多日才去就诊,信心传达到疾控中心也需要时间,而且,疾控中心美洲才进行一次数据汇总,因此疾控中心向公众通过新流感疫情会有两周的延迟。然而,对于一种飞速传播的疾病,信息滞后两周的后果将是致命的。
这时,谷歌提供了非常有价值的预测信息,他们的预测信息准确性高达97%,并且能判断出流感是从哪里传播出来的。重要的是,他们的预测非常及时,没有延迟。
神奇的是,谷歌公司的方法甚至不需要分发口腔试纸和联系医生----它是建立在大数据基础上的。
2、谷歌翻译系统,
机器翻译一直是一个迷人的IT领域,从上世纪60年代起,很多研究人员、科技巨头(IBM等)都涉足过个领域。虽然也取得了某些成果,但遗憾的是,机器翻译未能达到实用的程度。
2006年,谷歌公司开始涉足机器翻译。到2012年,谷歌机器翻译系统涵盖了60多种语言,甚至能接受14种语言的语音输入,并有很流利的对等翻译。
谷歌的翻译之所以更好,并不是因为他拥有一个更好的算法机制,而是因为它拥有上万亿条数据的语料库。
3、塔吉特“怀孕趋势”分析
一天,一个男子冲进了一家位于明尼阿波利斯市郊区的塔吉特商店,要求经理出来见他,他气愤的说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男子道歉时,这个男子的语气变得平和起来,他说:“我跟我的女儿谈过了,她的预产期是8月份,是我没有意识到这个事情的发生,应该说抱歉的人是我。”
塔吉特公司是利用顾客的消费数据,通过相关关系分析得到用户的消费需求,然后提前给他们发放优惠券。
二、大数据时代的思维变革
大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。
1、整体性:要分析与某事物相关的所有数据,而不是依靠分析少量的样本数据。
在小数据时代,预测分析多采用随机采样的方法,如西方的民意调查等。随机采样取得了巨大的成功,但是他本身存在许多固有的缺陷。
现在,得益于互联网、移动互联网、物联网的迅猛发展,我们可以获得海量数据。得益于信息处理技术的发展,我们也可以处理海量数据。我们已经可以抛弃随机采样分析方法,转而利用海量数据,从不同的角度,更细致的观察和研究数据的方方面面,让数据“发声”,让数据告诉我们很多很多的东西。
数据多比少好,更多数据比算法系统更智能,更重要。
前面的三个例子都说明了这一点。
2、模糊性:我们乐于接受数据的纷繁复杂,而不再追求精确性。
现实世界中,只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据就无法被利用。只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
谷歌的翻译之所以更好,并不是因为他拥有一个更好的算法机制,而在于其大数据的语料库。从某种意义上,谷歌的语料库是布朗语料库的一个倒退,因为谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、语法错误,以及其他各种错误。但是,谷歌语料库是布朗语料库的好几百万倍,这样的优势完全压倒了缺点。
3、相关性:不再追求难以琢磨的因果关系,转而关注事物的相关关系。
现实世界中,事物之间存在各种各样的相关关系。我们找出某个事物的相关物,对相关物进行监测,就能够对该事物做出预测。在塔吉特“怀孕趋势”分析的例子中,塔吉特公司就是把婴幼用品作为相关物来预测顾客的怀孕趋势的。
相关关系仅能告诉我们“是什么”,“怎么样了”,而不能告诉我们“为什么”。这就够了。正如塔吉特公司预测出了顾客的预产期,就能在顾客怀孕的不同阶段给顾客发送最合适的优惠券,达到扩大销量的目的。
相关关系分析,成为大数据预测的核心。
三、大数据思维方式有悖于“科学精神”
进行某项科学研究,首先要准确地抽象出研究对象、研究问题。例如要研究动力学问题,就要把物体抽象为质点,把物体的受力情况抽象为不受任何作用力或仅受某几个作用力。其实这种抽象就是把研究对象从现实世界的整体中剥离出来,是一种地地道道的局部化。对某一类问题研究越深入,问题就越精细,于是进一步局部化,从而产生新的学科,仅力学就细分为理论力学、流体力学、材料力学、弹性力学……。大数据思维方式恰恰是要转变这种局部性思维到整体性思维。
测量是科学研究的最基本手段,“测量臻于至善”是科学研究的最基本信仰,对数据精确性的追求是科学研究孜孜不懈的追求。而大数据思维方式不再追求精确性,而是张开怀抱去拥抱模糊性。
科学研究就是要解决众多的问什么。而大数据止步于“是什么”,不过多探究“为什么”了。
从中学时,老师就要求我们要研究事物“内在的”、“本质的”、“必然的”联系。现在,大数据却只关心事物“外在的”、“现象的”、“偶然的”联系了。
中国大数据思维五千年
大数据思维方式的变革,对西方人来说是变革,而对我们炎黄子孙来说恰恰是回归。从伏羲氏开始,我们中国人使用大数据思维已经五千年了。
东方思维是整体性思维。我们中国人最基本的观念就是天人合一,思考一切的问题都要在天人合一的大背景下进行,都要纷繁复杂的现实世界中去探求。“古者包牺氏之王天下也,仰则观象于天,俯则观法于地。观鸟兽之文,与地之宜。近取诸身,远取诸物。于是始作八卦,以通神明之德,以类万物之情。”
东方思维是定性思维,缺乏定量分析。如中医经历了2千年的发展,已经形成了严密的理论体系,但至今也没有坚实的解剖学基础,这也是中医饱受诟病的地方。现在,受大数据思维的启发,我们要好好地审视老祖宗留下的东西,切不可把孩子和洗脚水一起倒掉。
至于相关性思维,中国人八卦体系、五行体系都是典型的相关性思维模式。我们老百姓也都知道“吃什么补什么”,“日有所思,夜有所梦”,“喜鹊叫喜,乌鸦叫丧”等。
中国人独特的思维方式,傲视世界了数千年,也妄自菲薄了100年。现在,科技发展了,中华民族也接近了民族复兴的时刻,我们炎黄子孙更应该积极吸收民族文化遗产,积极把握当代科技脉搏,与时俱进,为实现“中国梦”贡献我们的力量。
领取专属 10元无门槛券
私享最新 技术干货