摘要

针对切碎中文文档的自动拼接复原中无法利用碎纸片形状特征的问题,提出一种基于内容信息丰富度的拼接算法.首先分析了基于汉字内容的碎纸片特征表达方式;在此基础上,提出从横纵2个方面进行碎纸片特征匹配度估计的方法;最后采用信息丰富度确定拼接次序,逐一高效地完成碎纸片的拼接.基于不同碎纸片数量的匹配实验结果表明,相对于传统方法,横纵特征匹配度估计方法分别提高了约4.73%,3.76%的准确度;自动拼接复原实验结果表明,相对于传统算法,基于信息丰富度拼接算法的错误率下降约18%,并大大降低了时间复杂度.