2018年11月26日,世界首例免疫艾滋病的基因编辑婴儿在中国诞生。谁都没想到,从众人惊叹吹捧、到122位科学家联名反对,这项所谓“中国生物科技的突破性成就”会在短短一天的时间里,发生一个天上、一个地下的两极评价变化。一些追捧者把基因编辑比作上帝的手术刀,认为总要努力尝试,人类才能进步;反对者们却在担心,毕竟背后的安全性争议和伦理审查涉嫌造假问题,都让这个外表华丽的基因编辑研究,暗藏了太多“不可信”的种子。
这也让小编想起20年前的一部科幻片《Gattaca》,Gattaca本不是一个英文单词,而是DNA的四种碱基AGCT的人为重新排布——几个字母就勾画出了一个奉行“唯DNA论”歧视法则的世界。
故事讲得是若干年后的未来,人类已经掌握了基因定制的能力。因此优生成为一种流行,经济实力雄厚的家庭可以去诊所培育强化基因受精卵。最优秀的卵子和精子结合,肤色身高任君挑选。出生的孩子一定会有强壮的身体和优秀的智力,毫无疾病的可能性,连肥胖、秃头、嗜酒等各种小缺点都能避免。这是“自然受孕一千次也达不到”的完美基因。而付不起钱的穷人,就只能选择低人一等的自然生育,生出“有瑕疵”的孩子。甚至年轻人谈恋爱,第一件事不是看工作家庭,而是直接拿着对方的头发去做DNA检测,分数高的人才是相亲市场的抢手货……
虽然目前的科学水平还做不到把人改造成超级人类,但基因检测已进入实用阶段。说到这里,我们先来普及下基本知识~
基因是什么?
人类基因组,由23对染色体组成,其中包括22对体染色体、1对性染色体(男性为XY,女性为XX) 。人类基因组含有约31.6亿个DNA碱基对,碱基对是以氢键相结合的两个含氮碱基,以胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C)和鸟嘌呤(G)四种碱基排列成碱基序列,其中A与T之间由两个氢键连接,G与C之间由三个氢键连接,碱基对的排列在DNA中也只能是A对T,G对C……
同学们,先别晕,醒醒醒醒,我们继续
基因检测又是什么?
基因检测是通过血液、其他体液、或细胞对DNA进行检测的技术,分析DNA所含有的基因类型和基因缺陷及其表达功能是否正常的一种方法。
举个栗子
经常被工作掏空的程序员,应当去医院做一个心脑血管疾病的基因检测,如果发现自己有遗传性心律失常的基因(猝死的概率比较高)的话,就应适当地减少工作量,多花点时间去寻找自己的诗和远方~
基因检测的主要用途有辅助临床诊断,指导治疗,携带者筛查,指导生育,为造血干细胞移植提供精确的配型信息等。
基因检测怎么了?
1.面临计算能力的挑战
测序仪器技术飞速发展,测序原始数据量大幅度提升,使得基因测序行业从原来的“测的没有算的快”,变为“算的没有测的快”。
2.数据分析,解读效率低
传统IT计算能力针对单人全测序产生的数据进行分析和解读,每次计算需要数天时间。
3.投资高,部署复杂
IT基础设施成本居高不下,整体IT集群的建设、部署、维护、运营、扩容等非常复杂。
4.数据的存储成为瓶颈
1个人的数据为1.5TB,100万人的数据将有1EB;这么大数据的传输、共享,存储成本,I/O读取性能,都会成为业务发展的瓶颈。
怎么解决呢?
基因测序作为高性能计算的重要应用领域之一,联创信安高性能计算解决方案可以为基因测序应用提供端到端的计算服务。
解决方案的特点有
首先,针对海量的基因测序原始文件导入,提供了基于KB级小数据块的文件系统,同时通过SFL(Smart File Location)算法进行数据定位,快速定位文件的写入节点和端口,全面解决了文件共享存储应用中的小文件难题;
其次,针对原始的jpg文件、bcl文件和新形成的fastq文件,构建分片存储机制。文件被划分为固定长度的数据分片以Round-Robin轮转方式存储在所有存储节点,操作可以在多个节点之间并发执行,使得在基因测序应用中,文件转换最为痛苦的数据存取延迟缩短,极大地提高了文件存储的工作效率。为整个基因测序的应用系统提供了良好的性能支撑;
第三,通过ARE技术(Auto Replication,相当于RAID1),保证同一个文件在多个存储节点上保留多分,主要用于实现高可用和数据的自动修复。ARE技术与STR方式的组合,同时保障高性能以及高可用,保证了整个基因测序系统运行的业务连续性。
联创信安UDsafe PanaStor新一代分布式存储系统曾为中科院植物所基因测序提供产品与服务。
当今,人类在基因领域已经取得了巨大的进步,并通过基因工程在改变自然以服务于人的需要方面进展迅速。有了IT技术为这个行业提供的支持,科学家们就能更加聚焦地去攻克专业难题。我们更期待基因工程与社会伦理方面矛盾问题的规范和协调,进一步增进我们关于科学本质的认识,也会有助于我们对真理、规律、因果性的全新认识。
领取专属 10元无门槛券
私享最新 技术干货