所谓大数据,也称为巨量资料,是指涉及到的资料数量在一定的时间内,无法通过传统的软件管理系统来对其进行管理、处理的一个数据的集合。相关统计资料显示,互联网一天中产生的内容可以刻满1.65亿张光盘、可以发出2240亿的电子邮件、以发布5500千万条网易消息等。据估计,到2020年以后,全球产生的数据量是现在的45倍。可以说整个人类文明发展数据的90%都是在最近几年产生的。
截至2013年底,国家数字图书馆数字资源总量已达874.5TB,其中自建数字资源量为737.9TB,网络信息采集量达45.7TB,外购中外文数据库共计273个,文津搜索汇集的元数据已达2.9亿条;随着读者服务扩展至计算机、数字电视、手机、手持阅读器、平板电脑、电子触摸屏等多种服务终端,服务量的不断增加,各业务系统每天都会产生大量的日志数据,其中包含了大量的用户行为信息,例如,Aleph系统日均产生日志数据约20GB,文津搜索系统日均产生日志数据大于300G。
国家图书馆副馆长魏大威在2014图书馆现代技术研讨会上指出“国家数字图书馆的各类数据急剧增长,迎来了大数据时代。”“各类型数据急剧增长,正朝着海量数据方向发展,国家数字图书馆面临着数字资源长期保存、资源整合、信息安全以及服务创新等多方面的挑战。”谈到大数据时代下数字图书馆建设问题时指出,图书馆需要充分依托大数据这一技术,推动数字资源整合,提高服务能力。
领取专属 10元无门槛券
私享最新 技术干货