摘要

基于谷歌开源OCR引擎Tesseract的字符识别技术,针对某特定应用场合,设计并实现了一个图片字符识别系统.首先,对尺寸一致的样本图片进行分割、灰度化和二值化预处理;其次,利用Tesseract对特定字符进行针对性的训练以提高字符识别率;最后,进行字符的识别和矫正.Python环境下的实验验证结果表明:经过训练后的Tesseract字库可以有效地提高字符识别的准确率和识别速度;同时,灰度图比二值图更适合本特定场合的图片字符识别.