摘要
敦煌文献是中华文化的宝贵遗产,其中藏文文献占据很大的比例。为收集、整理、利用敦煌藏文文献,对敦煌藏文文献的模糊版面进行专项研究是敦煌文献识别的基础,对推动文献的数字化发展具有重要意义。因此,文章构建了敦煌手写体藏文模糊图像数据集,提出了一种名为高斯-文本卷积双重去噪(Gaussian-Text Convolution Dual Filtering,GTCDF)的预处理方法,实现敦煌藏文文献模糊版面的有效去噪。实验结果表明,此研究方法在敦煌手写体藏文模糊图像数据集上进行预处理,文本字符错误率下降20.41%。和其他现有预处理方法相比,此研究方法表现更优,可有效应用于敦煌藏文文献模糊版面的自动识别,对敦煌文献的数字化发展具有一定的推动作用。
- 单位