摘要
汉字识别是人工智能与模式识别领域中重要的研究内容,针对现有的研究仍然存在着参数调整难度大、训练样本数少、不能识别所有常用字符等问题,提出了一种基于字符编码与卷积神经网络的汉字识别方法,首先通过查询字库得到所有字符信息,以utf-8编码方式与多种字体编码文件进行编码输出字符图像,再进行多种图像处理后得到数据集,并利用深度卷积神经网络进行训练识别,在网络训练中通过数据扩增、批标准化、RMSProp优化等方式进行优化,同时加入正则化和Dropout防止过拟合。实验结果表明,所提方法对于汉字的识别率达到了98.08%,与Alexnet、LeNet-5相比,使用同一数据集在识别准确率上提高了9.37%、21.14%,实现了一个识别率高、特征提取能力与泛化能力强的神经网络。
- 单位