伴随着互联网的深度覆盖和计算机技术的飞速发展,人类社会迅速进入到一个全新的信息化时代,“大数据”无疑成为当今互联网世界中的“新宠”。从数据特征来看,大数据具有常见的5V特征,即容量大(Volume)、类型多(Variety)、时效性高(Velocity)、准确性高(Veracity)和价值密度低(Value)。这些全新的数据特征使得业界对大数据的研究应用增长迅速,衍生出机器学习、人工智能等若干领域,并在消费者行为偏好等领域实现较为成熟的应用。
挑战传统量化研究思路
目前,社会科学领域对大数据的研究还处于起步和成长阶段。相较于大数据在商业领域的数据特征,在社会科学研究层面,大数据具有两方面的显著特征:一是全数据特征。大数据采集效率高,能够直接获取总体数据,区别于传统有限规模的抽样调查数据。二是非结构化和半结构化的数据形式,区别于传统的结构化数据,更为丰富的过程数据、文本数据都可以进入研究的范畴。这两个特征极大地挑战了传统社会科学量化研究的思路,同时也给未来社会科学研究的突破性发展带来了新机遇。
在社会科学各学科中,政治学是较早应用大数据方法的学科之一,这与其学科特征紧密关联。作为引领政治学方向的美国政治学研究向来注重量化研究方法,对新技术的应用总是走在各学科前沿;而政治现象的复杂性和一定程度上的显学特征,也使得政治学界对新技术的出现和应用充满期待。因此,大数据在政治学领域的应用相对走在社会科学各学科前沿,在宏观的社会运动研究和微观的大众研究层面都收获了许多具有典型意义的成果,推动了政治学方法论的更新和进步。
改变宏观微观研究范式
社会运动等宏大主题是政治学经常关注的话题,但对这一议题的研究却常常受到数据采集难度大、空间结构分析困难等因素的影响,使得研究受到局限。尤其是随着网络政治的兴起,对网络社会运动的研究和分析还很不足。大数据带来的数据采集和分析方法上的进步,使得政治学对社会运动更为精确的研究和预测变得可能。在分析方法上,大数据所推动的大规模社会网络分析、自动文本分析、情感分析、机器学习等方法的运用和普及,使得对社会运动研究过程的刻画更为精细,研究角度也更为多元。
利用大数据的这种优势,当前已有不少研究探讨了社会事件的起因和结构。这些研究拓展了对社会运动的研究方式,增进了政治学对社会运动尤其是网络社会运动议题的研究,在理论和应用层面都发挥了重要作用。
传统的大众研究往往以调查数据为基础,以标准化的问卷获取大众的政治倾向、政治参与、政治满意度等信息。受制于调查问卷的规模和高额的调查成本,样本规模和问卷内容都非常有限。而无论是面对面的直接访问还是电话调查或者是网络调查,数据不可避免地要受到调查质量以及受访者的社会意愿偏差、记忆偏差等因素的影响,使得数据结果容易受到质疑。
大数据方法的出现,刷新了传统的数据获取方式和所能获得的数据类型。这使得数据库可以突破抽样的限制,数据规模大为扩展,便利了对事实的描述分析;更为丰富的数据类型也使得政治学研究能够更进一步探测民众的政治偏好、政治行为、情感取向以及政治互动等多方面的情况。当前,已有不少这类研究出现,比如有西方学者利用机器学习和社会网络分析,来推测微博用户的党派身份,并分析他们的政党同质性水平;也有中国学者通过对政府网络留言板上的发帖内容分析,探究公民网络诉求的表达策略等。
政治学方法论:跨学科趋势
从政治学方法论角度来看,“量化”已经是政治科学研究方法中的主要成分,而大数据进一步推动了量化方法的升级和扩展,这使传统的量化方法重点——因果推论上也取得了诸多进展。首先,就因果推论中常用的匹配法而言,传统的匹配方法容易受到样本规模的极大制约,尤其是对于小规模群体而言,匹配方法在传统样本规模下很难实现;而大数据在数据规模上的优势,使得小规模群体的数量规模也相应变大,使匹配成为可能。其次,就因果推论中的实验方法而言,大数据也展现出其优势:传统的调查实验和田野实验方法成本高且实施难度较大,而大数据方法多借助于计算机技术和互联网,实验干预手段相对便捷,成本也更为低廉,一定程度上打破了实验设计的高额成本门槛,提供了探究因果关系的新选择。
大数据带来的数据开发和研究前景使得政治学与自然科学各学科的结合更为紧密,使得政治学向科学的方向更进一步。传统意义上,文本挖掘、机器学习、编程等概念似乎是自然科学中才会涉及的概念和方法,与社会科学有着较远的距离。但大数据时代的到来,很大程度上打破了这种文理界限,不仅要求社会科学学者具备一定的计算机技能,而且能够应对网络情况下的数据采集和分析方式。这对政治学者的挑战是巨大的:政治学者关注的对象是更为抽象的政治话题,要处理的是更为复杂的文本、话语、情感等数据,需要掌握和开发“非本专业”的数据处理方法。这使得政治学者面临着技能上的极大挑战,而主动学习和跨学科合作研究则是必由之路。
此外,在政治学研究中,也要审慎使用大数据。大数据带来的强大数据采集和分析能力,以及学界对大数据方法的不断开发利用,使得大数据的开发和应用方法不断成熟,并处于不断前进的过程,为政治学的发展提供了新引擎,带动了传统研究的更新进步,也开拓了新的研究领域。但是,伴随着政治学研究的进一步科学化,也要警惕大数据应用中存在的风险。当前,在政治学的应用中,大数据方法是实验干预的重要方式。但这种方式往往有着较大的人群影响规模,使得实验效果有可能突破研究的范畴,对现实的政治和社会运行带来一定的影响。因此,对大数据实验手段的使用,要充分考虑到可能的现实不利影响而对其审慎使用。
(作者单位:北京外国语大学国际关系学院)
领取专属 10元无门槛券
私享最新 技术干货