今天,小编分享下Q Bay Center钱塘中心入驻企业,Sentieon分布式运算框架的介绍与医院部署案例。
Sentieon软件包中的DNAseq流程使用优化的算法以及更有效率的语言复现了BWA/GATK最佳实践流程,在匹配结果的前提下速度提升5-10倍,将标准30x基因组的单节点分析时间降低至31分钟(128线程服务器)。在此基础上,为了进一步提升单样本的分析速度,Sentieon内置了基于CWL和Toil引擎的分布式运算框架,可以并行利用多节点的运算资源加速分析过程。
在分布式运算的框架下,分析流程中的每一个步骤被拆分为小的简单任务;每个简单任务负责处理基因组的一部分(默认100Mb),因此可以在多节点中并行运行。每个简单任务输出一个中间结果,最终会被合并为完整结果。值得注意的是,合并过程需要使用fqidx工具小心处理基因组分割的边界以及其他细节,以确保完整结果不会因为分布式运算而发生错误。该工具是Sentieon软件套装中的一个模块,可以将FASTQ文件分区拆分,方便后续建立多个并行比对任务。
最新进展
另外值得说明的是,复旦儿科的这个案例发表于2020年。如今Sentieon软件包经过了多轮版本迭代,分析速度与可拓展性有了显著的提升,在单机工作站的全基因组分析时间已经可以降低至31分钟以内。在此基础上,我们相信使用分布式运算,利用通用CPU硬件集群,可降耗时缩减到10分钟左右,更加适应新生儿急诊等应用场景。Sentieon会持续与合作伙伴共同验证与优化分布式运算的技术框架与院内落地的细节。
转发,点赞,在看,安排一下
领取专属 10元无门槛券
私享最新 技术干货