乍一看标题,似乎是要对大数据的发展过程进行研究,其实我的意思是用大数据的方式进行历史研究,没办法,中国文字真奇妙!由此我也理解历史上为何会出现那么多的文字狱了。
何为大数据?简单的字面理解就是大量的数据或者说海量数据,记得30多年前,我用的第一台IBM PC/AT机,内存640K,硬盘20M,当时想,天哪!20M,这辈子恐怕也装不满吧!如今连64G的手机都不觉得大了。大数据概念的出现已经有几年了,如同其它概念一样,大数据也经历了从追捧到棒杀的过程,追捧也好,棒杀也好,都很正常,似乎也是必然规律。去年我曾发表过一篇名为《拥抱大数据》的文章,畅想了大数据在石油地质领域的前景,本文根据个人体验谈谈我对大数据在历史研究方面的认识。
本人喜欢历史,尤其近现代史,再准确一点就是对中共历史感兴趣,了解历史有助于你读懂今天。曾经有人说研究历史的人,没有自杀的,通常都是长寿,因为他们太了解人和社会了,所以想得开,放得下。这话有一定道理,但也不尽然,文革初“三家村”中的两村邓拓和吴晗可都是史学大家,不也都寻无常去了吗?唉!又跑题了。过去只是通过各种书籍、电视节目了解历史,但是,从这些渠道获取到的信息毕竟是有限的,尤其是经过权威部门审核过的信息,其真实性是要打折扣的。好在现在有了互联网,人们可以相对自由的发表自己的所见所闻、道听途说和研究成果。高层次的专业历史研究者,他们的优势在于原始资料的占有,作为民间的历史爱好者主要是通过传统媒体和互联网来获取信息,尽管来自互联网的信息中有很多糟粕,但其中也不乏很有价值的内容。过去上班没时间,只能晚上抽空在网上浏览,看到值得收藏的资料就“Ctrl_C”、“Ctrl_V”一下,下岗以后有时间了,写个小程序,把所有网站历史栏目、历史博客的资料自动下载,虽然编程、搜索、下载的过程也是夜以继日比较漫长,但是乐在其中。
面对一天天庞大起来的信息资料,我是既兴奋又恐惧,兴奋的是我拥有了丰富的信息,为以后的学习研究储备了粮草,恐惧的是这么多信息怎么处理,怎么用?粗略的统计了一下,截止2018年1月24日为止,计算机自动下载文字资料共42.8万篇(214G),人工下载搜集文字资料2.3万篇(76G),音视频资料3600篇(262G)。资料分为中共历史、国民党历史、古代历史、外国历史和其它五大类,其中中共历史的文字资料26.2万篇(28.7G),音视频资料3276篇(233G)。
无论是自然科学研究还是社会科学研究都离不开原始数据,数据越多,你的研究就会越深入,研究出来的结果就越靠谱。所谓“数据越多”当然不是无限制的多,而是在你的承受能力之内的越多越好。你可能会说,你关心的是中共历史,为何还要搜集国民党、古代和外国的历史?须知国共双方打打合合几十年,了解国民党,有助于理解中共为何能够由小到大,由弱变强,最终战胜国民党夺取全国的胜利,中共从诞生到发展壮大,与近百年来的国际形势也是相互影响,密不可分的。所以,任何一项研究,一开始都不应受到太多的局限,视野要广一些,眼光要远一些,一些暂时看似八竿子打不着的无用信息,没准哪天就会派上用场,当然,我研究历史,也不可能去搜集脱氧核糖核酸的信息。总之,我倾向于还是要“多”,至于如何处理和运用这些信息,那属于研究阶段的工作。
在下载文章内容的过程中,一开始也走了一段弯路,由于对HTML语言的了解不够,网页中既有文本(也有少量的PDF格式)又有图片,许多还夹杂着广告,为了使下载的文件保持原有的段落格式,编程的工作量很大,效率不高,通过对大量网站和栏目网页代码的分析,逐渐摸索出一套提取网页有效内容的流程和方法。
面对瀚如烟海的下载信息,首先是要去伪存真、去粗取精、去重留一。辨别历史资料的真伪有一定的难度,这与作者的认知、记忆和所处环境有很大关系,这几年口述史很热,但是,述者所讲的,甚至说是他亲眼所见的未必就是真相,因此,需要多听多看,多角度分析,切忌匆忙下结论。所谓“去重留一”是指在下载的各种文章中,有相当一部分是网站互相抄来抄去,转来转去的,甚至同一篇文章会出现在同一网站的不同栏目或者同一栏目的不同时期,这就需要通过一些技术手段把多余的重复信息过滤掉。有些标题完全相同的文章,也不能简单的通过比较文件大小进行舍取,因为文中可能会有配图,即使同一篇文章,不同网站的配图也可能不一样,对于此类情况,就算是采用AI(人工智能)技术也无能为力,只能是机器+人工的方式进行处理。
要想利用好这些信息,就必须对它们进行科学的分类,目前我是根据文章标题,把它们分为前述的五个大类,每一类再进行二级、三级子类的划分,每篇文章按照所属的分类存放在相应的目录下。以中共历史为例,大体上按历史顺序和人物类别划分了X个二级子类,比如“建党”、“土地革命时期”、“长征”、“解放战争”、“文革起因”、“改革开放”、“中共领袖”、“中共上将”、“脱党人员”等,在二级子类里再细分三级子类,如“解放战争”中可以划分“重庆谈判”、“中原突围”、“辽沈战役”等N多个三级子类。在数据库中,每个分类都设有其相应的若干关键词用于自动分类和后期的检索与提取。理论上关键词越多,分类越精确,但是,对于有些文章,仅根据标题中的关键词进行一次性判别的做法容易出现误判,需要进行多重判别或全文检索识别,然而,进行多重判别的关键词设置又存在很大的不确定性,多条件的全文检索可以提高识别率,但又会导致运算时间成几何数量级的增加,此事古难全,所以目前这个问题暂时未能得到满意的解决,根据目前的经验,一、二级分类的准确率基本保持在80%以上,剩下的20%就靠人工了。
在对众多网站的信息搜索提取过程中,能感受到一些网站的专业性和严肃性,也能感觉到一些网站的不专业和商业性,但是,即使不专业的网站也会有一些出人意料的发现,即使财经网站,也会有一些颇有深度的好文章,所以,我是不会轻易放过任何一个网站的。我的口号是“宁可多存三千,决不漏掉一个!”
关于大数据我有一个观点,首先,大数据的特点就是大,至于多大才算大,没有一定之规,取决于研究的对象是什么,就像韩用兵一样,只要你的资金设备能够承受,多多益善。其次,它基本上是一种数理统计分析方法,不同的研究对象,所采用的方法也可能不一样,需要注意的是由于某些条件的改变,研究对象所呈现的特点也会随之改变,不能用一成不变的固定模式去研究。
在目前阶段,历史学家们主要还是在书堆里进行研究,民间的历史爱好者们则主要是通过书籍和网络浏览方式进行搜集和研究,他们的共同点就是拥有资源的数量有限,我和他们的最大不同点就在于我是IT人,我用我的专业优势搜集储备了海量的历史资料,在一定程度上弥补了与历史学家之间在资源占有方面的差距。希望在今后的资料整理和研究中,继续发挥自己的专长,在中共历史研究中取得满意的成果。
领取专属 10元无门槛券
私享最新 技术干货