Google基因组解决方案
1.解决方案整体架构
Google genomics解决方案,面向生物信息学家,研究人员,IT人员,为他们提供更有力的工具来同时处理大规模基因组样本数据。
整体架构如下:
lThe Google Genomics API:
面向用户的Web接口,是一个符合Global Alliance forGenomics and Health的实现。可让用户处理,存储,查询,分享大规模基因组数据。而且该API可以让用户自己开发工具来研究基因组数据并安全的分享给其他感兴趣的人。
lBigQuery
与SQL类似的大规模数据集查询工具,交互式的查询大规模人口突变数据来分析基因和疾病之间的关系。经过了千人基因组项目(the 1000 Genomes)相关数据的测试验证,只需要几秒就可以获得和之前一样精确的结果
#standardSQL
SELECT
COUNT(1)ASnumber_of_rows
FROM
`genomics-public-data.platinum_genomes.variants`
lMapReduce
一种针对大规模数据的并行编程模型,可以让用户利用机器学习和其他方法来发现基因组数据之间关联。该模型也使用千人基因组数据进行了验证,可以快速正确的将个人以祖源分离开来。
整个架构不但利用了Google云,也充分发挥了Google在搜索和大数据处理方面的优势:
只需几秒的时间,即可查询大型研究项目的整套基因组信息。还可以并行处理任意数量的基因组和实验。
无论您是处理一个基因组还是一百万个基因组,Google Genomics都可为您提供推动工作发展所需的处理能力和灵活性。
Google Genomics支持开放式行业标准,包括由全球基因组与健康联盟(Global Alliance for Genomics and Health)制定的标准,因此您可以在必要时与您的团队、协作方或者更广泛的社区共享工具和数据。
Google的基础架构提供达到甚至超过HIPAA要求的可靠信息安全性,可妥善保护健康信息。
2.集成的其他工具
DeepVariant
使用深度神经网络的方法来分析基因突变
https://github.com/google/deepvariant
GATK
Broad Institute基因组分析工具集,Google可以使用Cromwell工具来运行WDL定义的流水线。
http://www.broadinstitute.org/gatk/
Sentieon
BWA/GATK/MuTect/Mutect2的一个替代性的实现,性能更好,而且只进行纯软件的优化。
https://www.sentieon.com/
3.集成的其他数据库[2]
1000 CannabisGenomes Project
1000 Genomes
IlluminaPlatinum Genomes
MSSNG Databasefor Autism Researchers
ReferenceGenomes
Simons GenomeDiversity Project
The CancerGenome Atlas (TCGA)
ClinVarAnnotations
COSMICAnnotations
Tute Annotations
UCSC Annotations
参考
1.https://cloud.google.com/genomics/#
2.https://cloud.google.com/genomics/docs/public-datasets/
领取专属 10元无门槛券
私享最新 技术干货