天津大学元英进教授团队从头编码设计合成了一条长度为254,886 bp、专用于数据存储的酵母人工染色体,借助无线通信中前沿的纠错编码将两张经典图片和一段视频存储于高效组装的人造染色体,利用酵母繁殖实现了数据稳定复制,用便携式的三代纳米孔测序器件实现了数据快速读出与无错恢复。
从医学图像与天文观测,从视频监控到社交网络,全球数字化趋势使得数据量快速增长。据国际数据公司估计,到2025年全球数据总量将达到惊人的175 ZB(1 ZB ≈ 109 TB)。面对快速增长的海量数据,基于磁、光、电等的传统介质的存储技术面临功耗、体积以及使用寿命等限制。近年来,随着合成生物学的快速发展,DNA信息存储由于其高信息密度与低能耗处理等特点,成为应对数据存储发展挑战的新机遇。2021年1月,美国半导体产业协会(SIA)发布的《半导体10年计划》,已将DNA数据存储列为未来海量数据存储的重要选项。
借助团队在酵母人工基因组化学合成领域的积累,天津大学元英进教授带领一个跨学科团队设计合成了一条存储数字信息的酵母人工染色体,存储了两张图片及一段视频,并实现了数据的稳定复制与快速可靠读出。该工作首次将单菌内用于数据存储的DNA碱基数量提升到了百kbp级,容纳数据量为37.8 KB。日前,该研究以“An artificial chromosome for data storage”为题在线发表于National Science Review。天津大学微电子学院青年教师陈为刚副教授、化工学院博士研究生韩明哲以及周见庭副研究员为论文共同第一作者,元英进教授为论文通讯作者。
研究者从染色体的编码设计、组装与稳定复制、数据可靠恢复等方面展示了这种数据存储模式的潜力。
染色体的编码设计中,借助叠加伪随机序列应对三代测序的插入/删除(insertion/deletion)错误,采用现代通信中已广泛验证的低密度奇偶校验(Low-Density Parity-Check,LDPC)码纠正替代错误,实现了纳米孔测序高达10%错误率的数据可靠恢复。
染色体组装与稳定复制方面,设计插入一定数量的酵母自主复制序列(autonomously replicating sequence,ARS),提升的染色体稳定性,支撑高效组装和稳定复制。实验验证染色体稳定复制100代,依然能可靠读出数据。
数据读出过程中,利用三代纳米孔测序在大约10分钟获得足够的原始读段后,结合研究者设计的生物信息学与纠错译码混合流程,原始图片及视频可以从高错误率约10.79%的原始读段中可靠恢复,所需测序覆盖度仅为16.8x。
该存储模式中,数据逻辑密度(包含载体)为1.19 bit/bp,与目前文献中指标最高的四进制编码DNA喷泉方案相当(Erlich and Zielinski, 2017)。文章进一步指出了该存储模式与传统光盘存储的相似性,也即一次写入,多次读出,低成本可靠复制和便携式读取。作者还提及了降低合成成本、构建多条人工染色体存储更多数据的可行性。(来源:科学网)
相关论文链接:https://doi.org/10.1093/nsr/nwab028