“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。
整个社会要习惯这种思维可能需要很长时间,其中也会出现一些问题。
但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。
我们可以在大量数据对计算机其他领域进步的重要性上看到类似的变化。
我们都知道,如摩尔定律所预测的,过去一段时间里计算机的数据处理能力上得到了很大的提高。
摩尔定律认为,每块芯片上晶体管的数量每两年就会翻一倍。这使得电脑运行更加快速,存储空间变得更加庞大。
但大家没有意识到的是,驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显示,在很多领域这些算法带来的进步还要胜过芯片的进步。
然而,社会从“大数据”中所能得到的,并非来自运行更快的芯片或更好的算法,而是更多的数据。
由于象棋的规则家喻户晓,且走子限制良多,在过去的几十年里,象棋算法的变化很小。计算机象棋程序总是步步为赢是因为
对残局掌握得更好了,而之所以能做到这一点也只是因为往系统里加入了更多的数据。
实际上,当棋盘上只剩下六枚棋子或更少的时候,这个残局得到了更全面的分析,并且接下来所有可能的走法都被制入了一个庞大的数据表格。
这个数据表格如果不压缩的话,会有一太字节那么多。所以,计算机在这些重要的象棋残局中表现得完美无缺和不可战胜。
大数据在多大程度上优于算法这个问题在自然语言处理上表现得更加明显(这是关于计算机如何学习和领悟我们在日常生活中使用语言的学科方向)。
在2000年的时候,微软研究中心的米歇尔.班科和埃里克.布里尔一直在寻求改进Word程序中语法检查的方法。
但是他们不确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致的特点更有效。
所以,在实施这些措施之前,他们决定往现有的算法中添加更多的数据,看看会有什么不同的变化。
很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。
最后,他们决定往4种常见的算法中逐渐添加数据,先是一千万字,再都一亿字,最后到十亿。
结果有点令人吃惊。
他们发现,随着数据的增多,4种算法的表现都大幅提高了。
当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达10亿的时候,它变成了表现最好的,准确率从原来的75%提高到了95%以上。
与之相反地,在少量数据情况下运行得最好的算法,当加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94%。
后来,班科和布里尔在他们发表的研究论文中写到:“如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”
领取专属 10元无门槛券
私享最新 技术干货