首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

关于“大数据”的几则误判

本文转载自:量化研究方法(phdthink)

什么是“大数据”?

什么是“大数据”?网络经济时代,人们在经济社会中的诸种活动通过网络账户体系来实现,这些活动也就是所谓的网络账户活动,其基本内容更多地体现为账户间的关系。这些账户活动及其账户关系是由数字网络程序所设定的、驱动的,且被实时地记录下来。这就形成了所谓的“大数据”。因此,大数据来源于大量的网络账户的活动及其有效的记录,简言之,大数据是网络账户数据。

有了大数据,人们对于经济社会的认识与把握进入到一个全新的时代,特别是,当区块链等技术的应用,使得数据的真实性、准确性、可追溯性等得以确保,这就使经济社会进入到一个较信息经济更高位阶的新阶段,之所谓“数字经济”。

那么,“信息经济”中的“信息”又是什么?可以说,这些信息是数据形态的,也可以是非数据形态的,即便是非常专业化的信息,也都是供“人”来解读并由“人”来分析与处理的;“数字经济”中的“数字”,就是一系列的数量繁巨、复杂多变的“数据”,识别、分析与处理这些数据则往往远远超出了人力的界限,也超出了人机结合的界限,必须交托计算程序自行处理,这就是所谓的“算力”问题。从这个意义上说,数字经济是对信息经济的超越,是账户体系网络化扩展、深化,所带来的程序化驱动与自运行的必然结果。

大数据终将主宰经济社会,

消灭经济选择的自由?

有人认为,大数据意味着“全知”,进而“全知”意味着“全能”,发展开去,大数据终将主宰经济社会,消除个体差异,成就一元化的经济体系。是为关乎大数据最大之谬误!

“大数据”是“经济自由”所投射下的数字影像,它无法反噬掉“经济自由”,成为经济社会的主宰。经济社会中的大数据,是经济活动的网络化、账户化、数字化的产物,是经济人自由意志的集合映射。换言之,没有高度的经济自由,没有充分而多样化的经济选择,不仅无所谓“大数据”可言,经济数据更将急剧衰减乃至全面萎缩。

大数据就是社会经济活动的一层“数据化的外衣”而已,不管它多么帖服、合体或随型,活动着的是里面的“身体”,且这个“身体活动”是自由意志所决定的。如果认为,掌握了大数据就能影响乃至决定人们的经济决策,将自身的意志贯彻到别人的头上去,这就是本末倒置了,陷入到“人靠衣装”、“佛靠金装”的俗套了,甚或堕入“沐猴而冠”的把戏甚或“屎吃狗”的丑态中去了。

大数据是事物的表面,而非内里。体检报告上的“数据”反映出体检者的身体状况,但身体状况并不是反过来由这些体检数据所决定,更不是由那些填写、保留、使用报告甚或拿着报告读的人所决定的。大数据有价值、有功用,但是其自身并不具备所谓的“意志”,谁要是能够给大数据添加上个“意志”,就好比为它“请”了个鬼神牌位,这种为大数据“施法”的愚蠢念头,关乎科学意义上的“祛魅”。

那么,是否有人能够将自身的意志通过大数据来得以延展呢?这就像是在宣称,即便不能神化大数据,但是可以神化掌握或拥有大数据地人。如此,便不是在讲鬼故事,而是直接粉墨登场、客串来装神扮鬼了。

养鸡场可以为每只鸡建立一个线上账户,由此产生所谓的“鸡场大数据”。借此,场主似即可将自身的意志加诸于每只鸡身上。真的如此吗?对此,动物学家或养殖专家一定会对此嗤之以鼻。十几个世纪之前,武则天曾强令百花在隆冬里齐放,牡丹就是不从,这个典故众所周知且耳熟能详。动植物皆有其节律或意志,人类加诸于同类的意志尚不可为,何况施之于异类?

经济社会的网络化、账户化及数字化,究竟是拓展了经济自由的意志,还是反过头来最终可以扼杀掉经济自由呢?一种立场认为,技术始终是中立的。当真如此吗?印刷出版、书报广播、电报电话、铁路与航天卫星、网络与数据技术,等等,这些技术创新、应用与普及也曾饱受争议,甚或泛社会化与政治化,但最终都显现出其巨大的价值倾向或道义立场。“大数据”本身是众人自由意志活动的产物,是多样化、差异化、自由化经济选择的反映。不管如何操弄议题,也不能使大数据反噬掉“经济自由”。

究竟什么才叫做“掌握了大数据”呢?直言之,正是一些谎称掌握了大数据的人想对另一些被定义为没有掌握大数据的人,施加无与伦比的权力意志。这个说法,没有任何细思极恐的效果,反倒是格外地尴尬与搞笑。大数据时代,不乏刻舟求剑者的出现,其自认为是掌握了大数据的人,就此自诩为“全知者”,便放言可以随意地支配与运用“大数据”,如此便似乎从“全知者”纵身一跃为“全能者”,幻想着可以用大数据消灭经济选择的自由。这就好比用经济自由消灭经济自由,用大数据反噬掉大数据。其如果不是“演”过了头,那就一定是“扯”过了头。

大数据能够预知未来?

“全知”并非“全能”,“大数据”并不能“全能性”地预设未来,但是能否“先知”般地预知未来?同样,做不到。因为,大数据在时间上是有约束条件的。

《旧约·传道书》有云,“日光之下,并无新事。”但旧事究竟如何重现?只要充分地了解已发生的事物,未来便无所遁形吗?人们所熟悉的先知们,并不是所谓的历史学家,也谈不上什么数学家。依凭历史数据,能够预知未来吗?如果可行,那么,先知们便无处不在、无时不在。我们或可文学性宣称,历史昭示着未来,但这在哲学上是危险的,将其上升为一种数理性的逻辑,更是艰困的,甚或根本无法企及的。即便历史数据足够全面、完整、有效,甚或及时,在逻辑上,也难以推断出或确立起“历史决定未来”的命题。

大数据是全量数据,源于事实,也是事实,它并非既有经济理论变量性的函数分析,并不能在时间轴上理所应当地延展开去。在时间轴上,大数据终归是局部的,远非全量,它是实然的,是已发生的,即其性质上仍然是历史数据而已。问题再一次提出,通过历史数据能够“预知”未来呢?

大数据本身不是先知,也没有谁能通过大数据成为先知。基于大数据并不能建构所谓的“历史规律”,更谈不上把同大数据有所谓“关系”的某人或某类人嵌入到这一所谓的历史规律中去,进而使其发挥主观能动性,担纲某种角色。历史数据对于未来有一定的作用,但是根本上讲,历史数据并不能决定未来,换言之,未来并不是由历史决定的。没人能够凭依大数据而可预知未来,成为先知。

历史数据在多大程度上影响到未来呢?依凭大数据,如何更有效地预测未来呢?这只是相对以往诸般远非那么有效的预测而言的,终归有所助益,然而,毕竟只是概率意义上的“预测”而已,绝非“预知”。人类经济社会,就像是一盘永远下不完的棋,没人能够准确地预判输赢,遑论精确到输赢多少。有了大数据,便无所不知,无所不能,这无疑是一种妄想——大数据既不是主宰世界的上帝,也不是预知未来的先知。

上帝究竟是在掷骰子,还是在作计划?没人知道,包括那些真假先知们。

大数据包揽一切信息?

数据的标准化与格式化,决定了大数据不是“全息”的。

全知是指在一定标准或口径下的全量数据,但并不意味着包揽所有信息。信息的完整性是一个抽象而复杂的问题。数据信息往往是静态的,是在一定时间点下的结论,其被有效地获取甚或表达出来,就意味着一部分信息是确定的、静态的,而另一部分则不确定、动态的。这就好像猫的眼睛一样,当你用相机去拍摄它时,它便发生变化,也就是必然丢失掉或隐去一部分信息。所以,全知是就对象自身而言的,并非是与对象有关的全部信息而言的。

现实中,人们对于大数据的感受确是非常丰满有力、醒目而刺激的,这种情况一时间使人们感性上误以为这就是全息的。事实上,这种情形以往也反复出现过,有如第一次听到电话听筒里传来另一端亲友的话语,便以为那是真声音;第一次看到大屏幕会被其上迎面开来的列车景象吓到。确实,我们对于数据的感性认识,与对其的理性认知是两回事。

数据与数据不同,这不仅体现在数据性质上,而且体现在数据层次与数据结构上。数据性质的不同,产生了数据结构问题,与数据关系问题,而数据关系又在影响着数据性质与结构。换言之,数据并非是均质的、平衡的。数据结构和数据关系,往往更是我们难以把握的。这就需要作谨慎有效的数据获取、深刻全面的数据分析,以及有效的数据挖掘。我们很难用一组兔子的数据来验证另一组鸭子的状况,或者说,这样做是风险极大的。数据的界限和联系是非常复杂多变的。所有的数据之间存在着某种关系,但是,这些关联需要不断地被认识与发掘,而绝非是可以通过人为预设来加以限定或排除的。

事实上,大数据是在有限条件下的一种全量式的数据获得,但是,它不是全息性质的,也根本做不到全息。如果认为,有了大数据的加持,经济社会就成为全息的,甚或透明的世界,这实在是一种“幻觉”。虑不及此,类似“喜鹊叫喜,乌鸦叫丧”之类的“联系判断”都可以得到所谓的“大数据”的支持。大数据使人们更趋谦卑,而非使人燥妄,那种有了大数据,便认为大数据无所不包,可以无所不知、无所不能,实为一大“虚妄”。上帝掷骰子吗?假先知们跳出来争辩那骰子究竟有多少个面,是为令人无语的怪诞行径。

“大数据”当作“小数据”用?

经济社会中,如果取得的数据样本有限,就需要确立有效的分析框架,建立模型,确立函数关系,做回归分析。然而,如果样本不仅是充分的,而且是完整的,是全量的,那么数据分析就要摆脱既有的旧模式了。从全样本的大数据中,收窄样本数量,只选取部分样本用来分析,是一种缩量的方法,缩量样本分析后的结论又要适用于总量,这就是对大数据的“小用”。

举例来说,如果能够获得一个城镇全部机动车以及全部外埠入城车辆的运行状况,我们就可依所设议题来直接抓取数据,获得结论。抽样建模分析及其回归分析,就不仅累赘,而且极有可能反铸成大错。简单来说,大数据,就是扳手指头数不过来的状况,交给机器与程序去“扳”,不仅数得过来,而且数出来了。大数据往往更多地可以直接抓取并使用,而非在数理化、模型化、函数化等“加工”后再使用。

大数据具有完整性和全局性的特质,如果采用部分局部数据,然后试图得出超出部分局部数据范围的结论,这种既有的思维惯性,并不适用于大数据的逻辑和现实。大数据不能当作小数据用,小数据终归拼不出完整的大数据。印度盲人摸象的故事讲的就是避免以偏概全的道理,如果不是“摸”,而是带着刀子去割,割下来再摸,再好的数据技术也拼不活那头大象了。

本文作者为北京磁云唐泉金服科技有限公司首席经济学家周子衡

以下是我的公众号二维码(公众号码:addhz1),感兴趣的朋友可以关注一下,每天都有好文推送

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180116B0ATC000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券