编者按:
互联网时代,信息大爆炸引来大数据的盛行,对大数据的分析和拔高也在不经意间甚嚣尘上。
但数据本身不能表达现实生活中的所有细枝末节,人的生活无法量化更无法脱离其实时背景加以考量,主观建构的存在更使得数据无法完全解释人的行为,故而数据可以作为参考,但绝不可视为无所不包的唯一参考。
作者潘绥铭,现任中国人民大学性社会学研究所所长、社会学系教授、博士生导师;主要作品《存在与荒谬——中国地下性产业考察》、《神秘的圣火——性的社会史》。
近年来,对于大数据崇拜已经出现了盲目崇拜,就是无质疑、不反思地跟风颂扬和无限拔高。但是,大数据真的如此万能以至于可以取代各种非量化的人文社会研究吗?
大数据最值得质疑的,既不是其定义,也不是其功能或意义,以及方法论层次上的“以相关分析取代因果分析”,而是“一切皆可量化” 这个核心口号和基本理论。
它表述了大数据的三层意思。
其一,没有量化,就没有数据,更不可能有什么大数据。
其二,物质世界当然是可以被量化的,但是如果仅限于此,那么所谓的大数据就仅仅是数量的增加,性质毫无改变,纯属炒作。
其三,现在的大数据之所以被崇拜,要害其实只有一点:
把人类的行为及其结果,也给量化了,而且号称无所不包。
这样一来,大数据的性质就变了,从自然科学侵入到人文社会研究,这就不仅仅是一个研究工具的问题,而是一个认识论的根本问题。
那么在操作的层次上,人类无限丰富的生活实践,在被“唯科学主义”改造成“数据”的过程中,究竟发生了什么?
1
现实生活被裁剪
大数据崇拜者极力鼓吹“4V”(规模大、种类多、高速度、高价值),却故意回避了一个根本的问题:
在最开始收集到的,就是可以用来分析的数据吗?
在社会学的问卷调查中,这是有可能做到的;但是在所谓的大数据中,却绝对不可能。因为大数据并不是研究者主动去收集的人类行为及其结果,而是五花八门的所谓“客观记录”,是人类生活中微乎其微的那一部分“可获得信息”,例如上网活动所留下的痕迹、监控记录等。
可是人尽皆知,在人类活动的全部信息中,可获得的要远远少于不可获得的。
后者最典型的就是人类的一切精神活动的信息,在可预见的未来,依然无法获得的且无法监测。
这样一来,所谓大数据所获得的信息,首先是极端片面;其次是漫无边际;第三是支离破碎;第四是毫无意义;根本不可能直接用于任何量化的分析。
那么,这样的信息怎么才能转化为可分析的数据呢?
首先是必须加以“界定”,就是保留什么和舍弃什么;其次是进行“分类”,就是把什么归属于什么;第三步是加以“定义”,就是给某类信息赋予特定的人类意义;最后一步则是“赋值”,就是把不同的定义转换为可计算的数值。
以上网活动的痕迹为例,大数据的生产者,怎么来界定那些痕迹是有意的还是无意的、闲置的还是凝视的、主动寻找的还是被引导而来的?
界定之后,到底是根据停留时间长短还是活动的频率,来制造分类?为什么将“活跃”定义为“需求”?“需求”又被赋值成什么?从“不需求”到“强需求”的不同赋值之间,究竟是什么样的数量关系?
显而易见,在这个四部曲的过程中,依然是研究者自己在主观地、人为地、强制地“整理”那些“可获得信息”,将人类生活的痕迹,篡改为自己的世界观和价值观所能接受的“数据”。
这就意味着,所谓的大数据,其实并未超出“小数据”原有的局限性:裁剪生活,撕碎人生;将把整体生存的“人”,视为一堆杂乱的零碎。
因此,大数据其实并不是在帮助人类思考,而是企图取代和控制人类的生活经验,是人工智能的噩兆。
2
社会情境被忽视
有人已经发现,大数据记录的都是单独个人的行为,无法发现不同行为者之间的关系;但是,在这个现实世界里,难道真的存在一种与他人毫无关系的个人行为吗?难道个人的一切行为,不都是在一定的人际关系中,才会产生和带来某种结果吗?
社会不是个人的简单集合,而是人们通过各种关系有机地组织起来的。
同时,人们又是在特定的社会环境中做出各种行为的,不可能天马行空,独往独来。因此,人类活动留下的一切痕迹,必定蕴含着无限丰富的社会内容。
如果舍弃之,那么不管什么样的数据,不仅是浮光掠影,而且必定是盲人摸象。
每一个人都在特定的社会中,一点一点地成长为“此时此景中的此人”,然后才会做“此因此果的此行为”。这是每个人的社会历史建构过程,其中最重要的就是我们的一切社会背景、生活状况和成长经历。
可是这一切,往往仅仅存在于我们自己的经验与记忆之中;往往难于言表,更往往无法记录。
从“客观监测”的角度来说,根本就是“风过无痕”。那么,就算毫无隐私,就算监测可以天罗地网,所谓大数据的信息源又是从何而来的呢?
因此,对于了解人类生活而言,大数据其实根本就是空中楼阁。
如上所述,这样的批评还是很中肯的:“数据不懂社交、不懂背景,会制造出更多噪音,遗漏真正有价值的东西。大数据无法解决大问题。”
3
主体建构被抹煞
“大数据崇拜者”往往不敢承认:在人类生活中还有一种现象,叫做“主体建构”。即人们对于自己的行为所做出的解释,很可能与监测者的解释大相径庭,甚至背道而驰。
那么,在大数据监测到的人类的行为中,它究竟是如何分辨出其中主体建构的成分呢?首先,以网购的大数据为例,即使收集到全部的上网痕迹,而且全都数字化地一览无余,那如何知道这是监测对象的真实想法?
其次,人类有“自我呈现”的天赋,即表演。那么如何筛除被监测对象的表演?
第三,这些数据是否经历了被监测对象的认可,无核实且漠视主体意愿的数据如何呈现真实意志?
即使是某些询问对方意愿而获得的数据,尚且存在着这样一个问题:对方是否具有足够的能力来表述自己的意愿?
我们不能忽视无意识行为的广泛存在,更不应该否认:
人类的一切行为痕迹,无论多么海量,依然不能容纳和表述人类的全部生活意义。
总而言之,一切试图用自然科学或者数字化来了解人类及其社会的尝试,都无法否定人类“主体建构”的重要性,结果都必然将真实的生活阉割。
因此,大数据所获得的一切“发现”,其实只是部分人对他人生活的描述。而他人既不知道自己被描述了,也没有渠道去修正这种描绘。结果,大数据就变成一帮技术分子所构建起来的新的认知霸权。
4
生活意义被取消
人文社会研究的至少两千年历史告诉我们:
人类的一切行为,不仅蕴含着他们的人生意义,而且是为了追求其人生意义而行动的。这是人与物的根本区别。
可是,大数据所谓的一切“可记录的痕迹”,如果没有获得对方的主诉,那么就不可能包含该行为意义的信息。例如,一切上网活动,行为主体都不会表述自己为了寻求什么才这样做的,也不可能表达出这样做带来了什么样的价值与意义。
那么,该如何确定被监测者在不同的渠道中,在不同的情境之中,都会做出同样的选择?
交通监控录像、医疗记录、通讯记录等等,都足以号称自己是“大数据”。但所有这些数据,都仅仅是对人们生活中的零散的侧面的记录。
因此,这样的“大数据”再怎么大,也无法解决以下一系列常识性的问题:
首先,人在生活的某个侧面里的表现,与他/她的整个人格与人生,难道不存在紧密的关联吗?
其次,人类生活的各个侧面之间,难道不是相互影响着的吗?
第三,任何一个人的生活,难道不是被社会、文化、历史等因素制约着吗?
如此这般,数据越大,岂不是错误越大?
5
原罪就是原罪
本文所论述的一切,其实都是来自人文社会研究中,久已存在的对于“量化研究”的批评。大数据崇拜是这种思潮的最新表现,只不过是披上了更为光鲜亮丽的外衣。
在基督教教义中,原罪与生俱来,背负终身,不能通过人自己的救赎而被消除。
很可惜,量化研究也是如此。无论其技术手段如何发达,无论其数据多么大,一旦应用于人文社会研究,其缺陷与弊病就无法从根本上避免。
说到底,“大数据崇拜”,其实就是“唯科学主义”在人类历史面前一败涂地后的末日哀鸣。
但这并不意味着量化研究和大数据毫无可取之处,本文只表达三层意思:
首先,它们都不能质疑更不能取代各种非量化的人文社会研究;
其次,只有对这些先天缺陷进行深刻反思,并且予以充分展示的量化研究,才有资格在人文社会研究中保留一席之地;
第三,两种研究就像是两条铁轨,缺一不可,但又平行延伸,永不交叉。
领取专属 10元无门槛券
私享最新 技术干货