【新智元导读】在发表于《科学》(Science)的研究中,研究者 Yaniv Erlich 和 Dina Zielinski 描述了一种可以最大化 DNA 分子的数据存储能力的新编码技术。该系统能够在一克DNA中存储215PB(2.15亿GB),原则上可以将人类记录的所有数据存储在几辆卡车大小和重量的容器中。
人类面临着数据存储的难题:过去2年中产生的数据比之前人类历史产生的全部数据还要多。信息的洪流可能很快就会超过硬盘的承受力。现在好了,研究人员称,他们已经找到了一种新的方法来编码DNA中的数字数据,以创建前所未有的最高密度大规模数据存储方案。该系统能够在一克DNA中存储215PB(2.15亿GB),原则上可以将人类记录的每一点数据存储在几个卡车大小和重量的容器中。但是,这项技术能否推进可能取决于它的成本。
在发表于《科学》(Science)的研究中,Yaniv Erlich 和 Dina Zielinski 描述了一种可以最大化 DNA 分子的数据存储能力的新编码技术。Credit:New York Genome Center
用DNA存储数据的优点
用DNA存储数字数据有许多优势。它是超小型的,如果保存在阴凉,干燥的地方,它可以几十万年不损坏。只要人类社会能阅读和编写DNA,就能够对其进行解码。“DNA不会像盒式磁带和CD那样随着时间的推移而衰减,它不会过期。”哥伦比亚大学计算机科学家Yaniv Erlich说。也不像其他高密度的存储方式,比如操纵表面上的个别原子,这项新技术可以一次写入和读取大量的DNA,且可以放大。
之前的工作
科学家开始使用DNA存储数字数据,要追溯到2012年。当时哈佛大学的遗传学家George Church, Sri Kosuri和其他同事使用 DNA 的四种碱基 A、G、T和C来编码数字化文件的0和1,把一本52,000字的书编码到数千个DNA片段中。然而,他们的编码方案相对低效,每克DNA仅能存储1.28PB。后来也有一些方法做得更好,但没有一个能够存储超过研究人员认为DNA实际可以处理的(每个DNA 核苷酸约1.8比特)一半的存储量。(研究人员认为每个DNA 核苷酸可以存储约1.8比特,而不是2比特,是考虑到DNA写入和读取中罕见但不可避免的错误)。
最新的研究和方法
Erlich认为他可以接近这一极限。因此,他和New York Genome Center的助理研究员Dina Zielinski研究了用于编码和解码数据的算法。他们从六个文件开始,其中包括一个完整的计算机操作系统,一个计算机病毒,一部1895年的法国电影《火车进站》,和1948信息学家Claude Shannon的一份论文。他们首先将文件转换为1和0的二进制字符串,将它们压缩成一个主文件,然后将数据拆分为二进制代码的短字符串。他们设计了一个称为DNA喷泉的算法,将这些字符串随机地打包成所谓的水滴,然后向其中添加额外的标签,以帮助以正确的顺序重新组合它们。总而言之,研究人员创建了72,000个DNA链的数字列表,每个长度为200个碱基。
Columbia University 和NewYork Genome Center (NYGC)的研究表明,设计用于手机流视频的算法可以通过压缩更多信息到四个基本核苷酸的方式解锁DNA几乎全部的存储潜力。他们同时指出,这项技术也极为可靠。来源:Columbia University
他们以文本文件的形式把这些东西发送给了 Twist Bioscience,一家位于旧金山的初创公司,在那里这些文本被合成了DNA链。两周后,Erlich和 Zielinski 收到一个小玻璃瓶,里面装着编码了他们文件的DNA 。为了对它们进行解码,他们使用现代DNA 测序技术,将遗传密码翻译回二进制数字,并使用标签重组了六个原始文件。根据他们在《科学》杂志上发表的报告,这种方法效果很好,新的文件没有出错。他们还能够通过聚合酶链反应(一种标准的DNA复制技术)复制几乎无限数量的无错误文件。更重要的是,Erlich说,他们能够为每个核苷酸编码1.6比特(bits)的数据,比前人研究好60%,达到了理论极限的85%。
“我喜欢这个研究,”Kosuri说,他现在是UCLA的生物化学教授。“我认为这本质上是一个确定性的研究,确定你可以在DNA中大规模地存储数据。”
然而,Kosuri和 Erlich 提到,新的方法现在还不具备大规模使用的条件。因为成本太高,合成文件中的2兆字节的数据花费了7000美元,然后读取这些数据又花了2000美元。Erlich说,随着时间推移,成本可能会下降,但这样的研究仍有很长的路要走。此外,与其他形式的数据存储相比,将数据写入DNA 以及读取其中的数据都相对较慢。因此,如果数据需要立即处理,这种方法就不太可行,这种方法更适合应用于档案。
谁知道呢?也许在不久的将来,Facebook、亚马逊等公司的大型数据中心某天会被几卡车的DNA 取代。
对于成本问题的质疑
科技类网站Ars Technica的编辑 John Timmer 也指出,这一技术的问题在于每次读取数据需要花费漫长的时间和高额的成本,这一成本甚至高于将数据植入DNA的成本。
Erlich和 Zielinski则指出,成本高昂是由于对于DNA品质的苛求,直接跳过DNA质检的步骤会直接减低成本,而他们自信随之而来的错误率则会被系统本身很好地修正。
针对这一技术中高昂的DNA合成和读取成本,UCLA的生物化学教授Sri Kosuri则认为投资者不会花费巨资来降低成本。
当然,John Timmer也并不是在完全否定这一方法。相反,他指出:只要人类文明的技术确保我们还可以读取DNA和运用喷泉算法,那么这些数据永远都是可以被读取的。任何其他形式的数据存储恐怕都无法保证这点。当然如果人类文明已经倒退到无法完成上述工作的地步,那这些数据对我们已经毫无意义了。
来源:
http://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room
https://phys.org/news/2017-03-short-movie-dna.html