倡议人:包弼德(中国历代人物传记资料库CBDB)、德龙(中国哲学书电子化计划CTEXT)
翻译:徐力恒
美国学术团体协会(ACLS)在2005年发布的研究报告《我们的文化共同体》(Our Cultural Commonwealth)提出,人文和社会科学有自己的网络基础设施(cyberinfrastructure),就像自然科学研究那样。*1网络基础设施的层次介于基础科技和具体用于某研究项目、某学科和实践的特定科技之间。*2它可以起的独特作用,在于连接对一个学科有用的电脑软件、数据集、人才、实务做法、标准和合作模式等,有利不同项目利用一些共通的科技。
和自然科学相比,人文学科和部分社会科学学科(尤其是其中量化方法特点不明显的学术领域)深深浸淫在语言之中,很受语言的特点影响。就以主题模型(topic modeling)为例,当这方法用于中国文史研究时会面对颇多挑战。一般使用这种研究方法时,认定每个词之间的空格就代表分词的区隔,但这种标准不能用于中文文本。对于古代汉语而言,“片语(phrasemes)”可能比“词”更能贴切描述这种内容。所以,建立网络基础设施时,必须考虑它所处理文本的语言之特点。而且,这种构建的工作也要面对两种挑战。首先,全文数据库散落在各种机构和公司之下,相当分散,沟通颇为困难。其次,对于在线资料的分析工具往往是按照某种材料而开发,甚至属于某个系统里,要放到更广的应用去,实属不易。
在中国数位研究中,各种独立的工具林立,尤其是可检索的全文数据库。过去二十年,这方面有了极大发展。从资料不断扩充的中央研究院“汉籍电子文献资料库”(目前资料规模已经超过6亿字)开始,各种公开和私人数据库的数量大幅增加。 “中国哲学书电子化计划”的文本已经包含超过50亿字的内容,网站每天大约有2-2.5万访客。同时,人们对数位人文的兴趣也增加了,使得相关数位分析工具更加成熟,例如是用于社会网络分析的软件;地理分析工具和在线地图等工具;文本标记、挖掘和主题模型分析等工具;关系型数据库和物件导向数据库等。人们十年前认为过于昂贵的软件,今天已经变成非常普遍的工具。
要构建网络基础设施,做法不能是直接把所有文本资料合并。原因在于很多数据库都由商业公司运作,用户必须通过订阅才能获得数据。最近,一些数据库的元数据检索功能有了改进,使得用户可以从多个图书馆的馆藏目录获得有哪些文本有电子版这一类信息。然而,至今还没有人开发出同时检索多个数据库内容的工具。有些同行致力于开发中文电子资料的联合检索*3,但这种工作的主要障碍在于元数据格式上的不一致。
不过,应用程序接口(APIs)的流行,使得在线数据库和在线文本工具的连接变得更容易。关于一些特定专题(例如某地方、人群、职官、宗教场所)的数据库可以得到更好的利用。一个相关的例子是“中国历史地理信息系统”的API。任何文本工具都可以利用它的API,每当遇到地名时自动从“中国历史地理信息系统”调出相关数据,并在地图上标示。一个更复杂的例子是“中国历代人物传记资料库”的API。它允许用户调出关于一个人的各种类型的信息,例如籍贯、官职、亲属等。 “玛库斯(MARKUS)”代表API的最成熟用法,它允许从不同在线数据库调出资料,帮助用户对中文文本进行标记,并允许他们从文本挖掘出经过标记的资料,以供研究。“玛库斯”甚至可以直接从“中国哲学书电子化计划”提取文本。因此,在我们看来,如果各大公共和私人的全文数据库都允许API的使用,作为文本本身的补充,将大大提高各数据库的功用,对所有用户群体都是极大的帮助。实际上,坊间已经有一些工具能用于整合符合IIIF国际标准的图像资料,包括画作、地图、书籍的扫描图像等。例如由哈佛、斯坦福开发的Mirador就是让用户从各种来源的数据建立个人收藏的一个工具。 “中国哲学书电子化计划”则向我们展现一个主要资料为文本的数据库可以如何得益于API。当然,我们不得不承认当下的数位资源是多种多样的,开放程度也各不一样,但构建一个网络基础设施仍然是有必要并可行的。
因此,我们希望召集各大研究中心、图书馆与公开和私人的全文数据库拥有者参与这种探讨,并把各种在线工具和API的开发者和相关学者聚集在一起,开始讨论论网络基础设施的话题。
这方面工作的主要挑战在于如何说服商业数据库,让他们看到为何它们的全文数据库可以从网络基础设施所带来的元数据分享以及不同项目之间的互动得益。
注释
1.参阅:http://www.acls.org/cyberinfrastructure/OurCulturalCommonwealth.pdf。
2.参阅2003年的美国国家科学基金会报告“Revolutionizing Science and Engineering through Cyberinfrastructure”: https://www.nsf.gov/cise/sci/reports/atkins.pdf。
3.例如德国的项目CrossAsia:http://crossasia.org/en.html。“中国历代人物传记资料库”项目开发了一个跨数据库检索中国古籍书目资料的试验版。
END
主编 / 徐力恒
责编 / 陈静 顾佳蕙
美编 / 傅春妍
领取专属 10元无门槛券
私享最新 技术干货