摘要
光学字符识别技术是指电子设备通过检测纸面字迹暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,该技术对生产生活有着重要作用。本文根据公开的UCI光学字符数据集,建立模型,通过字符特征识别字符,具体如下:首先,为了找出同一字符之间的特征的相似性,我们对26个英文字符进行了分类处理,并且对于每个字符每一项特征取平均值,将其作为一个判断基准。为了识别字符,我们首先建立了相似度之欧几里得距离模型,为了求出两个字符的欧式距离d(x,y)运用以下公式:d(x,y)=((x1-y1)2+(x2-y2)2+...+(xn-yn)2)1/2=(∑i=1n(xi-yi)2)1/2其中指字符x的各项特征值。通过对待求字符与每个字符进行相似度的比较,近似求出待求字符。但在模型检验过程中,我们发现,该模型对于相似度较高的字符,如"N"和"H"并不能很好的区分,且正确率仅能维持在%60左右。于是,我们对欧几里得距离算法进行了改进,将欧几里得距离与KNN邻近算法相结合,建立了第二种模型,大大提高了模型的精确度。欧氏距离—KNN模型将待求字符的16个特征值与2万条数据的16个特征值分别求出其欧式距离,得到2万组欧氏距离并且比较2万个欧式距离的大小,提取出前K个最小邻。分别统计这K个字符中26类字符每一类的个数,个数最多的那一类,即为所求数据所归属的那一类。为了评价所建模型,我们建立AUG-基尼指数评价模型,对于所求得的ROC曲线进行函数拟合,再利用定积分求出AUG,进而求出基尼指数对模型精确度进行评估。最后,我们利用每个字符的前70%对模型进行训练,并利用数据的后30%对模型进行了精确度测试,测试结果如下:第一个模型正确率达57.825%,平均耗时为0.676毫秒。第二个模型在选取最优的K值和训练数据数量时,正确率高达95.265%,此时耗时为233.09毫秒。而且当精确率达到85%以上时,耗时均在80毫秒(0.08秒)以上。总的来说,字符识别模型一的精确度略低,但是省时省力。模型二虽然更加耗时,但是识别的精确度大为提升,生产应用中,应当根据实际情况采取不同的模型。
- 单位