摘要
针对目前古籍数字化过程中,原色高清文件过大、黑白处理后的文件文字不清、背面文字"透射"、正面与背面文字交叉重叠、图像噪点过多等诸多问题,本文研究了一种基于人工免疫算法的古籍文本数字化处理方法.该方法通过模拟免疫学的模型和原理,采用基于二进制编码的图像边缘检测算法,追踪文字边缘,寻找古籍文本数字图像上感兴趣的文字或图片,同时去除其他不感兴趣的部分,舍弃冗余信息.实测的结果表明,与其他方法相比,本方法处理后的文字没有空心,笔划连续,文档大小仅为原色文件的1.82%.本方法的处理结果对提高古籍文本的阅读体验、降低储存成本等需求具有良好的应用价值.
- 单位