摘要
合成DNA作为潜在的数字信息存储介质,存储密度高,可用时间久,有望成为未来数据存储的重要选项。然而,DNA的合成与测序读出往往造成碱基的多种错误,无法满足数据存储的可靠性要求,而保证可靠性的编码方案往往效率较低。针对该问题,提出了一种面向酿酒酵母内大片段DNA数据存储的高效率编码方法。数据编码通过多个极高码率的里德-所罗门(RS)码的码字交织构建数据DNA单元,将其与酵母的自主复制序列(ARS)交替镶嵌,构成酵母人工染色体序列;数据读出时,利用二代高通量测序,组合了读段从头(de novo)组装、ARS导引例,用20×二代测序数据可无错恢复原始数据。该编码方法不仅能实现数据可靠存储,实现的DNA数据部分逻辑密度为1.973 bit/bp,即使考虑生物单元开销,总体逻辑密度仍达到1.947 bit/bp。该设计流程可支持Kb到Mb不同长度的DNA的编码,为大片段DNA数据存储的"湿"实验提供灵活的实验前验证与评估。
- 单位