在大数据时代谈论小数据似乎有点不上档次,在信心技术没有这么发达的时候,大家做决策是都是基于小数据的。典型的例子是用八字给人算命,虽然在今天看来有点迷信,但是在民间及达官贵人那里还是很有市场的。在大数据时代仍然不能否认小数据的作用,做决策的最终依据是价值判断,这个是无关乎数据多少的获得。
大数据利用统计学的方法基于过去预测未来,但它不会解释事情背后的原因,解释原因的任务还是得留给各行各业的专家。因而数据分析的作用就是描述了整体的现象,要去深入的了解一个行业还是需要自己亲身经历,或者多与业界的资深人士交流。大数据之所以会火起来,一方面原因是计算机技术发展非常成熟,另一方面原因是传统的绝对因果关系难以解释复杂的现象。大数据从逻辑方法论上来讲用的是归纳法,它只以一定的可能性保证预测结果的正确性,它提供的原因解释也只是数学意义上的。
大数据技术的兴起代表了概率论思想在社会中的影响。以往社会哲学,包括马克思主义都追求一种历史发展的绝对规律,并从经济学的角度即生产力与生产关系来予以解释,而波普尔之类的历史哲学家认为历史发展是随机。同样自然科学界也放弃了牛顿机械论的思想,将概率论随机性的思想引入到量子力学的研究当中,物体的位置、形态、质量都是不确定随时变化的。
时下非常流行的是基于大数据的人工智能,但是鲜为人知的是上世纪六七十年也流行着一波基于小数据的人工智能,这是按照机械论的思想建立起一台精密、静态的仪器出来,专家系统就是这时期的代表作。小数据人工智能的优势是可以面对诸多的问题,而大数据人工智能只能面对一个细微的问题,比如我们研究人脸识别技术,就需要收集各种人脸的数据;要研究语音识别,又要不断的收集各种语音的数据。
大数据面对的首个问题是信息噪声,现在信息技术的发达给我们生活中也造成很多困扰,生活当中许多八卦,日常生活中大部分讲的话都是废话,而这些东西通过新媒体、社交工具强势侵入到我们生活当中来,同样在大数据技术研究中存在这样的问题。
大数据面对的第二个问题是技术人员对于数据的过度迷信、丧失基本的判断能力,以前没有电子地图的时候,经常出差、开车的人自己就成了活地图,现在到亲戚家离开地图导航都不行。前面已经论及,大数据并不能解释现象背后的原因,作为技术人员要充分的尊重各行各业专家、从业者们的经验和意见。
大数据面对第三个问题是无法应对黑天鹅现象,黑天鹅现象是指发生概率小但带来损失大的事故,大数据所采用的概率论方法决定了无法从根本上予以消除,除非回到过去追求绝对因果关系的演绎方法。之所以有历史学家说历史发展是随机性的,就是因为一些突发事件影响历史深远,比如唐明皇任用安禄山的失误导致的安史之乱,对中华民族千余年的历史走向影响。
领取专属 10元无门槛券
私享最新 技术干货