本技术公开了一种水印叠加编码大片段DNA数据存储的快速读出方法,属于DNA数据存储领域。本发明首先针对水印叠加编码的大片段DNA打断后建库进行二代高通量测序,得到相应的测序数据;然后使用噪声测序读段中隐藏的水印序列与本地已知水印序列进行滑动相关计算互相关峰值;根据互相关峰值的对应位置确定读段在大片段DNA序列的位置,然后采用多数投票判决算法生成一致性序列,进而通过高效的纠错纠删除译码算法实现存储数据的可靠恢复。本发明的优势在于,支持Kb到Mb级的数据DNA长度,使用简单的滑动相关和序列共识实现读段定位,有效避免了复杂度高的从头组装,并可排除非编码DNA读段干扰,能够在较低测序覆盖度下实现原始数据无错恢复。
背景技术
随着信息技术数字化、网络化、智能化的快速发展,全球数据量快速增长,数据长期存储的价值随着大模型等智能化技术的发展得到不断凸显。如何长期存储海量数据成为信息技术发展的重要需求。随着数据存储规模的爆发式增长,传统数据存储介质与存储技术面临挑战,现存介质面临使用寿命有限、日常维护成本高以及存储密度受到物理极限约束增长缓慢等问题。特别是,数据长期存储往往需要借助数据迁移实现数据长期可靠,造成维护成本大幅增加。传统存储介质无法满足快速增长的海量数据的存储需要,探索新型存储介质与存储模式成为信息技术长期健康发展的关键之一。
与传统数据存储介质相比,合成DNA分子具有存储密度高、维护成本低、高通量读写技术积累多等优势,正成为未来海量数据归档存储中极具潜力的新形态存储介质。近年来,多种形式的合成DNA介质的数据存储系统已被评估,主要可以分为:短片段寡核苷酸池存储方式、大片段DNA的数据存储方式。与基于短片段寡核苷酸池的存储方案不同,大片段DNA数据存储可以通过细胞增殖实现组装、扩增,数据复制成本低、可靠性高,在大规模数据分发的场景中具有潜在应用价值;大片段DNA的处理可以更好地利用生物体内的处理机制进行DNA的组装、生产等,具有更高的可靠性与较好的灵活性。
大片段DNA的读出与细胞DNA测序读出类似,可以借助传统的细胞基因组测序技术与数据处理技术。
一方面,大片段DNA片段可以采用三代纳米孔测序,但是目前三代测序错误率较高(约10%),并且错误类型较为复杂,包含处理较为困难的碱基插入(Insertion)与删节(Deletion)错误。该类错误的处理通常具有挑战性,恢复存储的数据需要复杂的Insertion与Deletion处理算法。例如天津大学的研究团队提出了采用稀疏化LDPC码与水印序列叠加编码的方案,设计合成了长度为254,886碱基的酵母人工染色体,存储了37.8KB的数据文件,经过三代纳米孔测序后,提出了一种融合基因组组装与高效indel(Insertion andDeletion)纠错译码算法的解码策略,在16.8×测序覆盖度下实现了数据的无错恢复。上海交通大学与天津大学的研究者使用6个6,750碱基的大片段均匀DNA序列存储了6.5KB的图片文件,并通过序列比对软件MAFFT使用53.76×三代纳米孔测序读段恢复了原始数据。上述方法都借助了三代纳米孔测序的便携、迅速等特点,但是也面临处理复杂的indel错误的难题。
另一方面,与基因组测序非常类似,大片段DNA也可以使用基于鸟枪法的二代高通量测序技术进行数据读出,得到大量的短测序读段。与基因组从头测序类似,读段组装操作复杂,且无法在低测序覆盖度下得到“完美”的一致性序列,为低成本的无错数据恢复带来极大的挑战。华大研究院针对54,520碱基的DNA片段用于细胞内数据存储,在数据读出过程中使用基因组从头组装软件SOAPdenovo实现对二代测序读段的组装,恢复了存储的数据文件;天津大学团队针对设计合成的酵母人工染色体进行二代高通量测序读出,并通过二代测序读段组装软件Velvet借助图论的DNA组装方法,进一步结合自主复制序列(ARS)定位的方式,实现了测序覆盖度为23.5×的数据无错恢复;同时,研究者通过多个极高码率的里德-所罗门(RS)码字交织的编码方案设计模拟了一条2.5Mb长度的环状染色体并进行了二代高通量测序读出,使用基于de Brujin图的组装软件Velvet和ABySS在20×测序覆盖度下实现了数据恢复。与基因组从头测序类似,使用二代高通量测序对大片段DNA进行数据读出时,读段组装的数据处理复杂度高,并且需要的测序覆盖度一般较高,一般需要几十乘以上。
研究者前期提出一种基于水印序列与稀疏化纠错码叠加的编码方案应用于长片段DNA数据存储。水印序列隐藏在测序读段中,可以用于识别三代纳米孔测序引入的复杂的插入、删节错误,进一步结合替换错误,可以实现基于三代纳米孔的测序数据读出。针对这种水印叠加编码的大片段DNA,采用二代高通量测序读出时受高复杂度的读段从头组装的限制,无法在低测序覆盖度下实现数据恢复,增加了从长片段DNA读出数据的成本。
实现思路