研发:CECLD,DNA 数据存储中基于 Levenshtein 距离的分类误差校正
实验结果表明,CECLD 算法能够有效地纠正不同长度序列中的错误,总信道误码率为 2.1 %,比特率低于 58.0 %。
Expert Systems with Applications 发表了一篇文章,作者是天津大学电气与信息工程学院的 Shufang Zhan g, Ming Luo, Penghao Wang, 天津, 300072, 中国, 天津大学合成生物学与生物制造学院, 天津, 300072, 中国, 合成生物学与前沿国家重点实验室合成生物学科学中心,中国300072天津,和天津大学电气与信息工程学院 Huaqing Yan g,中国300072天津。
摘要: “随着全球数据量的快速增长,DNA 分子因其高密度和长寿命而被设想为未来海量数据存储的解决方案。在 DNA 数据存储的生化过程中,插入缺失(插入和删除)错误对数据准确性的影响大于替换错误。尽管已经提出了各种纠错方案,但仍然存在纠正插入缺失错误效率低和数据恢复所需的高冗余性的问题。因此,本文提出了一种基于 Levenshtein 距离的分类纠错方法,命名为 CECLD。它需要一个具有神经网络结构的误差分类模型来评估 Levenshtein 距离特征并识别误差。然后使用推断的错误类型来校正插入缺失错误,从而有效消除核苷酸错位。使用这种错误分类模型,地址或有效载荷中的错误通过 CRC16 解码或 RS 解码依次纠正。实验结果表明,CECLD 算法有效地纠正了不同长度序列中的错误,总信道误码率为 2.1 %,比特率低于 58.0 %。所需的冗余低于现有的纠错方法,这将极大地促进 DNA 数据存储的广泛采用。
研发部门:用于DNA数据存储的神经极性解码器
作者提出了一种基于神经极坐标解码器 (NPD) 的数据驱动方法,为具有同步错误的通道设计低复杂度的解码器。
ArXiv 发表了一篇由美国杜克大学电气与计算机工程系的 Ziv Aharoni 和 Henry D. Pfister 撰写的文章。
摘要:“同步错误,如插入和缺失,在基于 DNA 的数据存储系统中是一个基本挑战,合成和测序噪声都会引起。这些通道通常被建模为插入-删除-替换 (IDS) 通道,为此,设计最大似然解码器的计算成本很高。在这项工作中,我们提出了一种基于神经极性解码器 (NPD) 的数据驱动方法,为具有同步错误的通道设计低复杂度的解码器。所提出的架构支持在 IDS 通道上进行解码,降低了 O(ANlogN) 的复杂度,其中 A 是独立于通道的可调参数。NPD 只需要对通道的样本访问,并且可以在没有显式通道模型的情况下进行训练。此外,NPD 还提供互信息 (MI) 估计值,可用于优化输入分布和代码设计。我们证明了 NPD 在合成缺失和 IDS 通道上的有效性。对于缺失通道,我们表明 NPD 实现了近乎最佳的解码性能和准确的 MI 估计,其复杂度明显低于基于格子的解码器。我们还提供了删除通道的通道容量的数值估计值。我们将评估扩展到真实的 DNA 存储设置,包括具有多个噪声读数的通道和真实世界的纳米孔测序数据。我们的结果表明,NPD 与现有方法的性能相当或超过现有方法,同时使用的参数明显少于最先进的方法。这些发现突出了 NPD 在 DNA 数据存储系统中稳健高效解码的前景。“
研发部门:使用超低质量读数进行序列分析和解码,用于DNA数据存储
所提出的方法在保持写入成本的同时,平均降低了 6.83% 的读取成本,最高降低了 19.67%。
生物信息学发表了一篇文章,作者是韩国光州 61186 全南国立大学智能电子与计算机工程系的 Jiyeon Park,韩国浦项 37673 浦项科技大学化学工程系的 Ha Hyeon Jeon, Jeong Wook Lee,以及Hosung Park,全南国立大学智能电子与计算机工程系,韩国光州 61186。
赋予动机:“错误检测/纠正代码在降低 DNA 数据存储中的写入和/或读取成本方面发挥着重要作用。序列分析算法也对纠错产生至关重要的影响,但其执行独立于纠错码的解码。在常规序列分析中,通常会丢弃低质量的读长。对于 DNA 数据存储,在错误检测/校正代码的帮助下,低质量的读数可以建设性地用于测序分析。
结果:“我们获得了在 Illumina NGS 测序中未能通过纯正过滤器的低质量读数。我们通过提供错误统计数据并使用它们进行解码来确认额外低质量读取的有效性。我们提出了一种用于各种长度读取的序列聚类算法和一种基于概率多数和错误检测的共识算法,以有效地利用额外的读取。所提出的方法在保持写入成本的同时,将读取成本平均降低了 6.83%,最高可达 19.67%。
可用性和实施 (10.5281/zenodo.15571858)。
研发:具有索引和记录多读多功能的引物盘启用的DNA数据存储系统
Work提供了一种具有索引和记录多读多功能的新型DNA数据存储系统,为DNA数据存储的实际应用铺平了道路。
Advanced Science 发表了一篇文章,作者是清华大学机械工程系的 马 Jiaxiang 、Yu Yang、Ben Pei,清华大学100084中国518055清华大学研究生院先进制造部的 Shengli Mi,清华大学机械工程系的 Zhuo Xiong,100084 Liliang Ouyang,清华大学机械工程系,100084中国北京, 清华大学先进装备摩擦学国家重点实验室,100084北京。
摘要:“DNA 数据存储通过将信息编码到碱基分子,已成为一种很有前途的信息存储技术。然而,如何构建易于记录、检索和读取的 DNA 数据仍然是一个挑战。在这里,介绍了一种支持引物盘的分层 DNA 数据存储系统,该系统允许 DNA 分子的多次固定并生成相应的二维码以进行检索。引物盘经过预设计,可呈现多个引物,可通过固相 PCR 按需将编码的 DNA 分子与互补引物共价固定在上面。每个 DNA 文件都可以通过喷墨打印荧光二维码来检索。使用最多包含 10 个引物的引物盘。结果表明,不同的 DNA 文件随后可以存储在磁盘上。人们可以通过荧光二维码轻松访问索引,并在随后的成像、约定和识别后解码信息。为此,可以通过固相 PCR 随机读取记录的 DNA 文件,并有足够的收集 DNA 拷贝数进行多达 20 次读取。总之,这项工作提供了一种具有索引和记录多读多功能的新型 DNA 数据存储系统,为 DNA 数据存储的实际应用铺平了道路。“
研发:通过哈希草图进行高错误率的DNA序列聚类 用于高效存储数据重建的模糊聚类
论文提出了一种用于可靠 DNA 存储数据重建的哈希草图模糊聚类 (HSFC) 方法。
Springer Verlag 在澳大利亚新南威尔士州悉尼举行的第 29 届亚太知识发现和数据挖掘会议论文集 PAKDD 2025 上发表了 一篇文章作者:邵琦,大连大学软件工程学院,先进设计与智能计算教育部重点实验室,116622,辽宁,中国,大连理工大学计算机科学与技术学院,郑燕芬,曹本,中国辽宁116024,刘振璐,王斌,周世华,先进设计与智能计算重点实验室, 大连大学软件工程学院教育部,116622大连,中国辽宁,以及坎特伯雷大学会计与信息系统系潘郑,上里卡顿,基督城,8140,新西兰。
摘要: “生命是由序列组成的,但由于生物序列的复杂性,引入了聚类算法来分析和处理生物序列数据。然而,在涉及合成 DNA 序列的任务中,例如 DNA 数据存储,在纳米孔测序等高错误率测序技术下,聚类的准确性和重建的可靠性仍然是重大挑战。因此,本文提出了一种用于可靠 DNA 存储数据重建的哈希草图模糊聚类 (HSFC) 方法。HSFC 采用位置敏感哈希将 DNA 序列映射为具有漂移的哈希草图,并设计了容忍更多序列错误的模糊匹配机制,从而减轻错误对聚类结果的影响。实验结果表明,与最先进的 DNA 聚类方法相比,HSFC 将 DNA 序列的聚类准确性提高了 6% 至 17%。此外,HSFC 实现了 99% 的序列恢复和重建率,模拟误差率为 10%。总之,HSFC 提高了高错误率环境中 DNA 序列聚类的准确性,从而促进了高质量的数据重建并确保了 DNA 存储读长数据的完整性和可靠性。“
研发:使用电化学活性非天然寡核苷酸和柔性微流控芯片的DNA数据存储系统
作者提出了一种基于 DNA 的电化学读出数据存储系统,能够识别 DNA 的不同非天然电活性碱基(亚甲基蓝和二茂铁修饰的碱基)。
分析化学发表了一篇由李建凯、王子燕、钟乐妮和江星宇撰写的文章,深圳市智慧医疗工程重点实验室,广东省先进生物材料重点实验室,南方科技大学生物医学工程系和中国广东省深圳市南山区学校路 1088 号科技518055。
摘要: “引入非天然寡核苷酸可以为 DNA 作为数据存储介质提供更高的存储密度和新颖的数据存储模式。特别是,可以通过电化学信号检测具有电化学活性的非天然寡核苷酸,从而允许数据存储检索数据。在这里,我们提出了一种基于 DNA 的电化学读出数据存储系统,能够识别 DNA 的不同非天然电活性碱基(亚甲蓝和二茂铁修饰碱基)。该系统采用柔性电化学微流控芯片,通过 DNA 杂交实现数据写入,并行电化学信号采集可实现数据读取。使用亚甲基蓝和二茂铁修饰的寡核苷酸作为演示,允许在电极上进行 4 (22) 种组合进行数据存储,我们在柔性电化学微流控芯片上成功编码并检索了一个基于四元编码的 120 位文本文件。我们的系统可能为从 DNA 数据存储系统进行电化学读数提供潜在的应用。“