一种水印叠加编码大片段DNA数据存储的快速读出方法

123技术园

首页 / 技术内容

2025-02-27 20:20

No.1344766159064670208

技术概要

PDF全文

本技术公开了一种水印叠加编码大片段DNA数据存储的快速读出方法，属于DNA数据存储领域。本发明首先针对水印叠加编码的大片段DNA打断后建库进行二代高通量测序，得到相应的测序数据；然后使用噪声测序读段中隐藏的水印序列与本地已知水印序列进行滑动相关计算互相关峰值；根据互相关峰值的对应位置确定读段在大片段DNA序列的位置，然后采用多数投票判决算法生成一致性序列，进而通过高效的纠错纠删除译码算法实现存储数据的可靠恢复。本发明的优势在于，支持Kb到Mb级的数据DNA长度，使用简单的滑动相关和序列共识实现读段定位，有效避免了复杂度高的从头组装，并可排除非编码DNA读段干扰，能够在较低测序覆盖度下实现原始数据无错恢复。

背景技术

随着信息技术数字化、网络化、智能化的快速发展，全球数据量快速增长，数据长期存储的价值随着大模型等智能化技术的发展得到不断凸显。如何长期存储海量数据成为信息技术发展的重要需求。随着数据存储规模的爆发式增长，传统数据存储介质与存储技术面临挑战，现存介质面临使用寿命有限、日常维护成本高以及存储密度受到物理极限约束增长缓慢等问题。特别是，数据长期存储往往需要借助数据迁移实现数据长期可靠，造成维护成本大幅增加。传统存储介质无法满足快速增长的海量数据的存储需要，探索新型存储介质与存储模式成为信息技术长期健康发展的关键之一。与传统数据存储介质相比，合成DNA分子具有存储密度高、维护成本低、高通量读写技术积累多等优势，正成为未来海量数据归档存储中极具潜力的新形态存储介质。近年来，多种形式的合成DNA介质的数据存储系统已被评估，主要可以分为：短片段寡核苷酸池存储方式、大片段DNA的数据存储方式。与基于短片段寡核苷酸池的存储方案不同，大片段DNA数据存储可以通过细胞增殖实现组装、扩增，数据复制成本低、可靠性高，在大规模数据分发的场景中具有潜在应用价值；大片段DNA的处理可以更好地利用生物体内的处理机制进行DNA的组装、生产等，具有更高的可靠性与较好的灵活性。大片段DNA的读出与细胞DNA测序读出类似，可以借助传统的细胞基因组测序技术与数据处理技术。一方面，大片段DNA片段可以采用三代纳米孔测序，但是目前三代测序错误率较高(约10％)，并且错误类型较为复杂，包含处理较为困难的碱基插入(Insertion)与删节(Deletion)错误。该类错误的处理通常具有挑战性，恢复存储的数据需要复杂的Insertion与Deletion处理算法。例如天津大学的研究团队提出了采用稀疏化LDPC码与水印序列叠加编码的方案，设计合成了长度为254,886碱基的酵母人工染色体，存储了37.8KB的数据文件，经过三代纳米孔测序后，提出了一种融合基因组组装与高效indel(Insertion andDeletion)纠错译码算法的解码策略，在16.8×测序覆盖度下实现了数据的无错恢复。上海交通大学与天津大学的研究者使用6个6,750碱基的大片段均匀DNA序列存储了6.5KB的图片文件，并通过序列比对软件MAFFT使用53.76×三代纳米孔测序读段恢复了原始数据。上述方法都借助了三代纳米孔测序的便携、迅速等特点，但是也面临处理复杂的indel错误的难题。另一方面，与基因组测序非常类似，大片段DNA也可以使用基于鸟枪法的二代高通量测序技术进行数据读出，得到大量的短测序读段。与基因组从头测序类似，读段组装操作复杂，且无法在低测序覆盖度下得到“完美”的一致性序列，为低成本的无错数据恢复带来极大的挑战。华大研究院针对54,520碱基的DNA片段用于细胞内数据存储，在数据读出过程中使用基因组从头组装软件SOAPdenovo实现对二代测序读段的组装，恢复了存储的数据文件；天津大学团队针对设计合成的酵母人工染色体进行二代高通量测序读出，并通过二代测序读段组装软件Velvet借助图论的DNA组装方法，进一步结合自主复制序列(ARS)定位的方式，实现了测序覆盖度为23.5×的数据无错恢复；同时，研究者通过多个极高码率的里德-所罗门(RS)码字交织的编码方案设计模拟了一条2.5Mb长度的环状染色体并进行了二代高通量测序读出，使用基于de Brujin图的组装软件Velvet和ABySS在20×测序覆盖度下实现了数据恢复。与基因组从头测序类似，使用二代高通量测序对大片段DNA进行数据读出时，读段组装的数据处理复杂度高，并且需要的测序覆盖度一般较高，一般需要几十乘以上。研究者前期提出一种基于水印序列与稀疏化纠错码叠加的编码方案应用于长片段DNA数据存储。水印序列隐藏在测序读段中，可以用于识别三代纳米孔测序引入的复杂的插入、删节错误，进一步结合替换错误，可以实现基于三代纳米孔的测序数据读出。针对这种水印叠加编码的大片段DNA，采用二代高通量测序读出时受高复杂度的读段从头组装的限制，无法在低测序覆盖度下实现数据恢复，增加了从长片段DNA读出数据的成本。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

陈为刚刘双葛奇韩昌彩赵天

技术所属：天津大学

相关技术

一种双频双模孔径共享共形超宽带天线及其应用  一种双频双模孔径共享共形超宽带天线及其应用 
 本申请涉及一种双频双模孔径共享共形超宽带天线及其应用，属于天线技术领域。天线包括依次层叠设置的基底层、辐射体层及接地层，基底层、辐射体层及接地层均由导电织物制成；辐射体层设置有辐射贴片，辐射贴片用于在单极模式下谐振；辐射贴片开设有双锥形槽，双锥形槽用于在维瓦尔第模式下谐振。该天线通过不同的激励口在两种辐射模式之间灵活切换，可以在两个频段实现具有不同波束特性的超宽带辐射，受人体影响小，且具有柔性与低轮廓特征，易于应用在衣物或其他人体可穿戴电子设备中。
一种纤维素基嵌入式电路的制备方法  一种纤维素基嵌入式电路的制备方法 
 本发明涉及一种纤维素基嵌入式电路的制备方法，包括:S1、纤维素前驱体溶液的配制；S2、导电墨水的制备；S3、嵌入式电路的打印；S4、纤维素基嵌入式电路的成型。本发明通过纤维素溶解再生特性制备出纤维素基嵌入式电路，扩展了嵌入式打印的方法，不仅能打印二维电路也能打印三维电路，与传统的嵌入式打印相比降低了对基质和油墨的需求，使其打印更加简便，在柔性电子的领域内具有广阔的应用前景。
一种基于加载电容贴片的双层基片集成波导谐振器  一种基于加载电容贴片的双层基片集成波导谐振器 
 本申请涉及毫米波通信系统的波导技术和微带线技术领域，尤其涉及一种基于加载电容贴片的双层基片集成波导谐振器，从上至下依次包括上表面金属覆铜、上层介质板、中间金属覆铜、下层介质板以及下表面金属覆铜；所述中间金属覆铜包括加载电容贴片，所述加载电容贴片两侧分别连接有微带线馈电部分，所述微带线馈电部分设置于所述加载电容贴片的中心线上；所述上层介质板和所述下层介质板上均开设有两组周期排布的金属通孔，所述加载电容贴片中心开设有矩形槽。本申请能够控制谐振器的本征谐振频率，实现对谐振模式和传输零点的可控，从而实现可控的中心频率和带宽。
基于多模通信的配用电网络校时方法、装置、系统及芯片  基于多模通信的配用电网络校时方法、装置、系统及芯片 
 本公开涉及配用电和通信技术领域，具体涉及一种基于多模通信的配用电网络校时方法、装置、系统及芯片，所述校时方法包括:校时节点和被校时节点分别处于同层、相邻层或跨层，通过获取第一校时信息和第二校时信息，之后基于第一校时信息和第二校时信息对被校时节点进行校时；本公开引入了基准节点的概念，以校时节点和被校时节点同时接收到基准节点所发送的基准信标为基准时刻，使用在基准时刻各自记录的以本地时钟计时的时间值分别作为第一校时信息和第二校时信息，或者将位置相对稳定且可预测、重复度高并易于检测的指定过零时刻作为基准时刻，有效地提高了配用电网络节点在时钟同步时的校时精度，提升了整个配用电网络的可靠性和稳定性。
一种非接触式IC载板表面处理系统及方法  一种非接触式IC载板表面处理系统及方法 
 本发明提供一种非接触式IC载板表面处理系统及方法，属于印制电路板领域，本发明包括:表面处理机体和表面处理工控机；表面处理机体上表面安装有水平移动装置；表面处理机体的第一端为进料端，进料端设置有与水平移动装置相适配的搬送载具；待加工处理的IC载板放置到搬送载具上，并在水平移动装置上水平移动；表面处理机体的第二端为出料端，从表面处理机体第一端至第二端依次安装有表面处理装置、表面粘尘装置、预加热装置以及表面贴膜装置；本发明利用各种化学药液对加工过程中IC载板表面进行除油、铜面粗化、酸洗、水洗、烘干等处理。由磁力搬送提供零摩擦的搬送力，避免摩擦产生粉尘异物。满足生产效率需求，提升处理效率。
一种气溶胶打印制备高稳定界面电路的方法  一种气溶胶打印制备高稳定界面电路的方法 
 本发明涉及一种气溶胶打印制备高稳定界面电路的方法，包括:S1、配制柔性基底；S2、配制导电墨水；S3、打印电路。本发明的导电材料与柔性基底无缝接触，其良好的粘附性和共形性能够满足柔性电子在弯折、拉伸、刮擦应用过程中导电材料不脱落、保持持久良好的导电性能；可同时获得图案化及具有高稳定界面的电路，可用于精密电子线路、天线工艺、敏感元器件及其它电子元器件等电子信息产品，具有较高的实际应用价值。
一种支持群智感知的端边云紧凑视频编码方法及系统  一种支持群智感知的端边云紧凑视频编码方法及系统 
 本发明公开了一种支持群智感知的端边云紧凑视频编码方法及系统，在云边端系统中，对单摄像头和跨摄像头语义目标图片进行优选，基于目标跟踪和图片优先，选取包含语义信息最大的语义图片框，对语义目标对象在其时域轨迹上的图片框序列进行特征提取，并将得到的紧凑特征用于语义目标对象的重构，实现视频群智语义目标紧凑编码，采集用于反馈控制的控制参量，聚焦感兴趣或语义感知相对重要的区域，用于指导多个摄像头之间协同码率分配及量化控制优化，实现视频群智多摄像头端边云协同优化编码。在针对海量摄像头视频数据进行以图搜图业务中，本发明对海量摄像头视频数据进行高效编码，支持端边云高效存储传输和分析。
一种高阶双频带的带通频率选择表面  一种高阶双频带的带通频率选择表面 
 本申请涉及电磁场与微波技术领域，尤其涉及一种高阶双频带的带通频率选择表面，包括上层金属层、介质基板和下层金属层，所述介质基板设置于所述上层金属层和所述下层金属层之间；所述上层金属层和所述下层金属层均在金属层上蚀刻一个大矩形环缝隙和四个小矩形环缝隙，四个小矩形环缝隙位于大矩形环缝隙的四条边上，蚀刻后采用四个小矩形金属贴片、一个大矩形金属贴片和不规则的外围金属贴片。本申请能够增强频率选择性表面的整体性能，使得频率选择性表面在多频带应用中表现出更优异的选择性和稳定性。
一种方便调换的变频器及其使用方法  一种方便调换的变频器及其使用方法 
 本发明公开了一种方便调换的变频器及其使用方法，本发明涉及变频器技术领域，包括器体、控制器和调换组件，所述器体的外壁安装有控制器，所述器体的内壁设置有调换组件，调换组件用于方便变频器的调换，器体的内壁安装有调控组件，调控组件用于调控变频器的状态。本发明通过安装有压定板移动使激发头与连接处接触，使激发头移动带动带动拉回弹簧移动，拉回弹簧移动使激发头与触动传感器接触，触动传感器通过处理器控制电磁块启动，使其产生磁力将变频器快速吸附固定，调换变频器时反转转把使激发头移开触动传感器，此时由处理器控制电磁块关闭使其快速卸下，实现了变频器快速调换加大调换效率的功能。
血压连续测量预测方法、装置、设备及存储介质  血压连续测量预测方法、装置、设备及存储介质 
 本申请涉及深度学习技术领域，公开了一种血压连续测量预测方法、装置、设备及存储介质。方法包括:通过血压测量系统根据多个第一血压测量部位分别对目标用户进行血压监测并进行时空关联节点判别和节点筛选，得到多个第二血压测量部位；构建变结构动态贝叶斯网络模型并进行血压状态预测，得到第一血压状态预测策略；进行节点先验概率密度估计和影响权重调整，得到第二血压状态预测策略；进行血压状态预测策略融合，生成目标血压状态预测策略；通过初始Volterra泛函级数模型进行血压异常检测，得到目标血压异常检测结果；进行模型优化和连续血压异常检测，输出连续血压异常检测结果，本申请提高了血压连续测量预测的准确率。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工