摘要

随着科学技术的发展,人工智能正越来越多地进入并改变着我们的日常生活。光学字符识别技术(Optical Character Recognition,OCR)是计算机视觉研究领域的分支之一,归属于人工智能。本文提出一种基于VGGNet深度学习卷积神经网络的图像中文OCR识别纠错方法。首先,基于OCR业务系统平台生产中间数据,积累字、词数据,建立字、词图像库。其次,开发"字词图像库汇总工具",汇总字、词、建立字典,并实现字典与本地图像库一致性更新;接着使用三步数据处理法,将机器与人工相结合,对字、词库进行数据清洗,清除错误、合并相同,并建立常错字词映射表。然后,基于Tensorflow深度学习框架,训练VGGNet网络模型,建立字、词分类器。最后,对OCR结果进行分析,智能纠正错误结果。本文的方法,使中文OCR的准确度提高了10个百分点,同时数据清洗工作量减少了50%。