2018年10月25日,在华大集团主办的第十三届国际基因组学大会(ICG-13)上,深圳国家基因库在与会嘉宾的共同见证下,正式发布“国家基因库生命大数据平台”(China National GeneBank Databases,以下简称“CNGBdb”),成为本届ICG大会的一大亮点。
国家基因库生命大数据平台正式发布
国家基因库CNGBdb平台负责人、华大集团大数据中心大数据应用团队负责人魏晓锋对CNGBdb进行了介绍。该平台为促进生物大数据的共享和利用而生。与其他数据平台不同,CNGBdb在大数据和云计算技术的加持下,基于国家基因库、NCBI(美国国立生物技术信息中心)、EBI(欧洲生物信息研究所)、OMIM(在线人类孟德尔遗传数据库)等平台海量数据的整合,贯穿“搜”、“存”、“算”、“用”多重需求,打破领域内数据库分散林立的障碍,以统一门户为用户一站式解决全部需求,因此被称为“基因界的谷歌”。
CNGBdb平台负责人魏晓锋
CNGBdb具体能做什么?平台负责人魏晓锋介绍称,该平台面向全球科研人员提供数据归档、知识搜索、计算分析、管理授权、可视化等数据服务,覆盖母婴健康、肿瘤、动植物多样性、病原微生物等十几个研究领域,形成一个融合多研究领域、多数据类型、多分析维度的超大型科研数据系统。
CNGBdb数据结构
CNGBdb首先为国内科研人员解决了“存”的难题——国内本地化的数据归档空间。它旗下的核酸序列归档系统(CNSA)提供英汉双语界面、1Gb带宽、批量归档功能,确保用户能轻松上手、快速上传和下载,并加强了我国遗传数据资源的安全性。同时,CNGBdb赋予每条科学数据一个唯一的“身份证”——DOI(数字对象标识符)标识,方便检索、追踪和引用,提高数据的曝光率和引用率。截至现在,该平台已经支持了近3000个项目,归档数据将近600TB。
CNSA
据悉,CNGBdb的另外一大优势,是分布式的、由AI驱动的搜索引擎。它同时也是生命科学垂直领域的最大搜索引擎,已实现30+亿索引、10+TB元信息的互联。文献、变异、基因、蛋白质、序列等12个结构的数据彼此联结,检索时关联信息汇集于同一页面,一目了然,使信息搜集和筛选效率翻倍。此外,CNGBdb搜索引擎不仅达到秒级响应速度,还支持中文关键词和全文检索。
而在“算”方面,CNGBdb提供一系列数据计算和分析服务,其中BLAST是最值得推荐的应用之一,这是一个高性能混合计算池,整合了NCBI 最新的nt、nr库,且拥有CNGB独有的千种植物转录组数据集、万种鸟基因组项目数据集、全球最大免疫序列数据集等,方便用户对核酸或蛋白质序列进行搜索对比。
CNGBdb BLAST
登录CNGBdb或国家基因库官网
体验国家基因库生命大数据平台服务
领取专属 10元无门槛券
私享最新 技术干货