摘要
为提高多文种文档图像的文种识别的效率,提出基于Ridgelet变换的多文种识别方法。对文档图像数据库进行Ridgelet变换,对得到的Ridgelet (脊波变换)系数矩阵提取脊波能量特征,生成特征向量。在分类决策中选择KNN、线性判别分析以及贝叶斯3种分类模型分别对所提特征进行训练和分类。在包括英文、中文、阿拉伯文、土耳其文、吉尔吉斯斯坦文、俄文和国内少数民族文种(蒙文,藏文,维吾尔文)的9个文种共9000张文档图像数据库中进行实验,最高识别率为99.23%,验证了所提算法对多文种识别有较高的识别率和良好的鲁棒性。
- 单位