摘要
本发明提出了一种基于自适应编码顺序的DNA测序质量分数无损压缩方法,主要解决现有质量分数压缩方法预测模型不够准确导致压缩率偏低的问题。其实现方案为:1)通过两个编码压缩块P-1和P-2提取FASTQ文件中的质量分数数据和碱基数据;2)计算第一编码压缩块P-1所提取文件中每行质量分数的均值并进行量化,得到M×1的行均值矩阵F;3)统计编码字符的上下文信息、碱基信息和行均值信息,4)设置两个标识符C和D,并对3)统计的信息统一量化,以构建编码模型;5)用编码模型驱动自适应算数编码器,并采用蛇形编码顺序沿相关性最强的方向对第一编码压缩块P-1进行遍历压缩。本发明提高了压缩效率,可用于基因数据的存储与传输。
- 单位