某中心今日宣布,通过其AWS开放数据赞助计划,现可免费访问由国家生物技术信息中心(NCBI)管理的国家卫生研究院(NIH)序列读取档案(SRA)数据。
2018年,NCBI开始通过NIH STRIDES计划将SRA数据迁移至某中心云平台。随着SRA在Amazon S3上公开可用,科学家现可将SRA数据无缝集成到基于云的基因组工作流程中。研究人员可选择通过原生某中心客户端(如某中心管理控制台或某中心命令行界面)访问数据,或使用SRA Explorer等开源工具。
某中心美国政府、非营利和医疗业务副总裁表示:"通过将SRA数据在云端提供,生命科学和基因组学领域的研究人员可以在开放数据的坚实基础上进行构建,并通过工具、解决方案和产品来回馈科学生态系统。"
NIH数据科学副主任指出:"在云端访问SRA数据的能力完美实现了NIH长期坚持的广泛、快速和公平获取生物医学研究数据的原则。这种开放数据计划提供的计算访问新机会将加速研究进程,使我们能够提出大胆问题并推动科学发现。"
自1860年代发现以来,DNA一直是 fascination 和启示的源泉。通过基因组学这一专门研究DNA的领域,科学家已开始理解DNA如何决定个体的外观、行为和疾病风险。事实上,糖尿病、抑郁症和癌症等常见疾病都有已知的遗传因素。
SRA目前存储超过44 petabases的基因组序列,相当于超过60亿个人类基因组——超过美国当前人口的18倍。SRA目前容量超过40 PB,且增长没有放缓迹象。专家预测,在可预见的未来,SRA容量每12-18个月将翻倍。
某中心副总裁表示:"像Amazon S3这样的对象存储可以随这种增长率扩展,而且借助云的力量,计算能力也可以同步扩展。"
SRA包含生命树所有分支的基因组序列,并在抗击COVID-19中证明至关重要。例如,不列颠哥伦比亚大学云创新中心开发的开源科学病毒发现平台Serratus,使用某中心服务将冠状病毒泛基因组与380万份SRA提交进行比对,以识别新的冠状病毒序列。
要了解序列读取档案的最新信息,请访问ncbi.nlm.nih.gov/sra。有关某中心开放数据的更多信息,请访问opendata.aws。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。