大数据与社会科学和人文科学研究
本文为周欣平教授2016年4月22日于华中师范大学逸夫国际会议中心所做演讲的第二部分,周欣平,美国加州大学伯克利分校东亚图书馆馆长、武汉大学客座教授、上海交通大学客座教授;整理者:冯国林,华中师范大学人文社会科学高等研究院大数据历史专业研究生
讲到这里大家可能就要问了,这些你说的都对,但是对做文科研究的人来说,我们怎么用大数据来研究呢?这是我今天要讲的主要题目。文科研究和自然科学、金融学、公共卫生等领域不一样,文科在大数据方面的研究往往就不是那么确定。我们怎么来用大数据来进行文科方面的研究呢?首先,我觉得文科方面的大数据研究是通过一些大型的社科知识库的产生而发生。这个社科知识库呢可以是多元的,比如是大型文本数据库,比如说美国国会图书馆的全部藏书完全数字化了以后,以PDF的格式来计算,它们的总容量不过只有20多个TB。理论上来说我们可以把美国国会图书馆所有书籍都数字化以后放到几个TB容量的磁盘上,磁盘也不贵。这也就是说我们可以把整个美国国会图书馆藏的图书全部放自己的电脑里面,这就是一个巨大的数据库。对文科研究人员来说,我们今天的便利就是可以使用海量数据库。就拿中国学术来说,它有2000多年文字记载的历史。今天我们和前人不同的是前人没有办法用大数据做研究。而今天我们做文科的研究人员可以用大数据来做研究。这就是我们和前人所不一样的地方。我们的前人根本无法想象我们今天可以饱览世界上不同文字的材料,通过大数据的检索和存储平台可以任意驰骋在知识的海洋里。在这一点上,前人是做不到的。我们今天也可以通过云端计算,把信息通过无数个服务器的连接变成一个具大的知识链。通过对信息的收集和存储来形成一个共享知识平台。通过知识库的建立产生合作。以前做文科研究的人们做大规模合作的机会不多,通常是分散独立的孤军奋战。你做文学的研究,我做历史的研究,我们之间是不相干的。今天因为有了大数据和云端计算,我们就有可能进行大规模的合作研究了,可以进行跨领域,跨学科的研究。在不久的将来,社会科学和人文科学研究方面会出现一些超大型的合作平台,这是可以预见的。通过利用大平台和大知识库,我们可以开启一系列的探索与发现,而且规模是非常可观的。我们可以重组数据,收割数据,分离数据,我们就生活在数据之中了。社会科学和人文科学研究面说用的海量数据在某种程度上来说不会亚于自然科学方面的数据量。文科的数据更容易重新使用和修改的。这比自然科学的研究来的更便捷。我认为的通过大数据来进行社会科学和人文科学研究会给我们带来前所未有的新视野和新方法。就看你能否把握这个机遇。目前一些大型的文科研究平台和数据库实际上已经在形成。我这里举几个例子,主要是美国的例子,也有欧洲的例子,比如说HathiTrust就是美国的一个大型的文本数据库,它有超过1300多万册图书。GOOGLE BOOKS(谷歌图书)也是一个巨大的文本数据库,有超过1500万册文本图书。还有INTERNET ARCHIVE, 欧洲的EUROPEANA COLLECTIONS都成为了巨大的云端网络数据库。它们都给文科研究提供了前所未有的机会。另外还有很多文化遗产机构、典藏机构、学术研究机构,它们也都在随时发布数据。这是GETTY研究所提供的关于艺术史研究方面的网络接口,为研究艺术史的学者提供了前所未有的机会。他们可以任意的搜索和使用这些艺术史的资料,通过一站式的服务,对网上数据进行收割,分析,而做出漂亮的研究结果。
西方学界今天有一个非常响亮的名称叫数字人文。实际上它就是用数据来做人文科学和社会科学的研究。数字人文有哪些特点呢?第一个特点就是它是跨学科的,跨领域的研究。前面我已经讲了,因为数据链的产生和大数据平台的使用,我们可以很任意地做跨领域跨学科的研究,而且这种研究还是动态和发展的。数据可以重新整合,可以重新收割,这就造成了数字人文研究的动态和跨学科的特点。数字人文有三个组成部分,第一要有新的数据;第二个有新的研究方法,必如通过使用注释图像,文字组合,原型重塑,多媒体三维图,GIS等一系列手段,你可以把你的研究水准得到提升。最后还要有新的视野和结论。通过数字人文研究,你要能够拿得出新的视野和结论。这样在文科领域里利用大数据来研究的案例在以前是少见的,但是在未来会越来越多。
我这里用一个图来显示的数字人文研究得跨领域和跨学科性。如果你是学历史的,你往往是根据历史资料来做相关的历史研究。如果你是学文学的,你就做文学方面的研究。但是,在大数据时代,我们通过数字人文来做研究就没有必要分得那么细了。一旦进入大数据领域,你就做数字人文研究了,可以横贯历史和文学两个领域。这种穿越太容易。不管你是学文学的还是学历史的,还是做人类学的,你的结论是通过来自不同领域的数据进行分析所达到的。你研究的能量就大大提高了。数字人文可以把我们的研究变成一个跨学科跨领域的多学科多领域的研究范畴。这方面例子实在太多了,我随便给大家举个例子。不是说它最好,而是给大家提供一个最直观的例子。
这数据库记录的是伦敦17世纪到19世纪两百年间这个城市的旧貌,汇集了大概240万件文档,包括24万份手稿,还有其它各种各样的档案。另外还提供大概300万个人名资料。通过对这些大数据的研究,我们可以发现这两百年之间伦敦人的生活百态。如社会行为、规范、文化形态、犯罪行为等等。通过对这些数据的分析,我们可以做量化研究,也可以做直观描述。
下面我想再举两个案例分析一下怎么在文科领域里做大数据研究。第一个案例呢就是数字敦煌研究。我经常这样说,最好的数字人文项目,不用去别的地方去找,它就在中国,就在敦煌。用数字技术来存储敦煌壁画和做数字人文研究,它比欧美人开始得早。数字敦煌项目就是用数字化的手段来进行数据的创造,数据的收割和数据的整理保存,20多年以前就已经开始了。这个项目所利用的数字技术和手段超过了现在美国的一些数字人文的项目。敦煌石窟艺术是个中国历史上一个璀璨的明珠,在中国古代艺术史方面占据了半壁江山,是古代文明的宝库,前后有1000多年的历史,是一个非常珍贵,无法超过的一个艺术宝库。自从1900藏经洞的发现之后,敦煌文书流散海外,也使敦煌学变成了一门世界范围内的学问。今天我们可以这样说,敦煌在中国,敦煌研究也在中国。敦煌的数字人文项目可以说是引领世界,具有极高的技术含量。那么数字敦煌要做什么呢?就是要再造一个虚拟的敦煌石窟和敦煌壁画艺术宝库。这是一个有宏伟的目标。数字敦煌的数据有4个部分:壁画图像资料、雕塑图像资料、对雕塑和壁画维修和保护所产生的数据,包括环境监测数据。比如说某一个时候,窟里面它的温度是多少?湿度是多少?它的人流是多少等等、还有就是遗书。敦煌藏经洞大概有5万多件敦煌遗书。
什么叫数字敦煌呢?就是要将洞窟,壁画,彩塑以及与敦煌相关的一切文物加工成高质量的数字图像,同时也将分散在世界各地的敦煌文献研究成果以及相关资料汇集成电子档案。壁画这个文物不可再生,也不能永生。这是敦煌研究院前院长樊锦诗的一个高瞻远瞩的讲话。在这样的一个宏观视野指导之下,敦煌研究院20多年来吸引了许多优秀的人员和团队来到敦煌做数字敦煌项目,包括美国西北大学,美国盖蒂所保护所和国内的一些高校,如浙江大学和武汉大学等等。全世界各地的一些聪明人到敦煌来从事数字敦煌的制作,大家力图把中国古代文明这份遗产啊以数字形态永久保存下来。这就出现了一个数字敦煌。它的数据量是巨大的,目前已经过了50个TB,将来要超过100个TB。美国国会图书馆的整个藏书数字化了以后,以PDF的格式出现,才达到20多个TB,敦煌研究院的数字敦煌数据是是它的若干倍,这主要是数字敦煌的内容主要是图像,有采集到的高清图像、时空信息、激光扫描、3D影像、虚拟现实的视觉体验内容、保护数据和环境监测数据等多方面的数据。这就形成了一个大数据链,数字敦煌的大数据链。它有哪些链接呢?有合成图像、原始图像、动漫、历史照片、影像资料、数字复原资料、遗书文物、临摹缩微、保护资料等多元数据的链接。这么多的大数据链形成了一个数字敦煌体系。不久的将来就可以给研究敦煌的人员提供一个巨大的资料库。人们不需要到敦煌去,就可以在网上做敦煌研究。可以采集数据,整合数据。标引数据,都在一个世界性的敦煌研究平台上进行。同时也可以把这些珍贵的大数据保存下来,复制出来,成为可以再生的虚拟敦煌。同时还可以用现代的手段展示这个古老的文明。这是一个3D的展示,它是全景展示,相当有震撼力的。我们也可以把这个展示缩小到一个IPAD上,通过IPAD你可以看到敦煌的一些很细微的内容。通过数字方法,我们可以把研究推到一个新的高度。以前做敦煌研究是少数人,一个人一枝笔,针对小的细节。做文字研究的,做民俗研究的。现在通过这个平台,我们可以提供一个整体的视野,将集体研究成果纳入这个平台,这就有了相当大的改善。
我想再举第二个案例,就是数字地图。我们在开始做这个项目的时候数字人文的研究才刚刚开始。在伯克利我们收集了大量的日本古地图。它们是来自16世纪到19世纪的日本古地图。这些日本古地图以前没有很好地被学者使用。过去几十年里,整个来伯克利研究这些日本古地图的学者不上100人。这是一个资源浪费。我们把这些古地图数字化,然后放在一个网站上全方位展示,加了标注。有些地图的话是非常珍贵的。比如说这个地图啊,它反映的是在江户时期从江户(东京)到京都的一条公路和沿线的情况。
下面一张地图揭示了日本早期对外通商的历史发展。地图上有两艘船,一艘船是荷兰船,一艘船是中国船。它反映了日本早期海外贸易的两个主要来源国。一个是欧洲的荷兰,一个是临近的中国。
接下来的这张地图里还反映了日本历史上一个很重要的一个事件,就是1852年到1854年美国海军将领佩里的战舰开到了东京湾,打开了日本的门户。
日本人到今天还很感激美国人,前几年还在旧金山搞了一个庆祝佩里将军打开日本门户150年纪念。美国人用炮舰把一个封闭的日本打开了。佩里将军的军舰是一条黑色的蒸汽船。地图生动地反映了当时佩里率领美国舰队驶向日本,打开日本门户的场面。
地图里还有很多关于中国的描述,有京师总图,还有日本人对明代紫禁城的描述。我们利用这个网站的分析展示功能把东京皇宫图和紫禁城图进行了比对,可以清楚地看出这两个在结构上非常相似。中国文化对日本的影响也就非常清楚了。
在这个网站上你还可以发现早期日本人对世界的理解是错误的。比如说这张图反映的是日本人对美洲的了解。在图里面,加州被描述成了一个海岛,可见他们对世界的了解他是有一些错误的。
把这些地图做成数据以后,我想再演示一下怎么进行研究。因为数据只是一个部分,研究是最主要看结果。首先我们可以将地图放大,有的地图我们通过肉眼是难以看到细节的。但是变成一个数字地图以后,我们能够把它无限放大,所有细节都变得清楚无误了。
在这样一条停泊在东京湾的渔船,我们可以看到江户时期渔夫们的生活。我们也可以进行城市地图的比较,比如把东京两个不同历史时期的城市规模的和街道建构加以对比和比较,就可以发现不同时期这个城市发展的演变。在这个分析过程里,我们就会发现一个很有趣的历史现象,就是地图里面有个区被标记为“贱人区”,就是低贱的下人居住的地区。这就证明了在江户时期的日本,它的城市地区是分等级的。一些劳工和下层人士只能在这些贱人区生活。通过这个古地图数据的研究,我们就可以得出这个结论。作为进一步的研究,我们还可以把要研究的不同历史时期的地图放大,排比,进行任意的重组和对照。我们还对地图里的某一个部分进行精确校准,提供注释和分析,然后把注释和分析和被对比的地图拼接在一起,显示研究的结果。我们可以把这个研究推广到一个社交平台上,让别的学者也来进行校准,也来写注释。除此之外,我们还添加了卫星图,把古代地图和现代卫星地图进行比较,比如说把1864年的东京市区图和今天的卫星图进行比较,把1710年的地图和今天的卫星地图进行比较,把1748、1799、,1803、1858、1892、1905、1910年的多个地图进行对比拼接,通过分析后得出新的结论。这些个例子都演示了在对大数据的研究过程中,我们是如何得出新结论、新知识和新视野的。这也表明了数据使用的新方法,即数据可以重组,再生,形成不同数据链。另外,大数据的研究也把我们从单一的研究引向到一个集体开发的研究平台,从本质上改变了研究的方式。
我最后做个简单小结:大数据是多元的,即有各种各样的数据。数字人文研究的特点是利用大数据和新的研究方法得出新的视野和结论。大数据的特点是直观性、有些数据还具有视觉效果和三维特征。 数据可以重复多次的使用。通过数据的重组和连接我们可以做跨学科,跨领域的研究。我们可以采取高科技手段,把研究工作做得更新颖和生动。这就是人文科学领域里使用大数据的威力。(完)
领取专属 10元无门槛券
私享最新 技术干货