Tesseract-OCR的文档扫描识别系统

作者:杨思怡; 付相祥; 吴晓华; 夏清*
来源:电子世界, 2021, (20): 98-100.
DOI:10.19353/j.cnki.dzsj.2021.20.042

摘要

<正>在高速信息化的时代,针对海量文档数据处理效率低下的问题,提出了一种基于OCR技术的识别系统,首先利用OpenCV对文档数据进行预处理滤波,边缘计算,灰度化等一系列预处理,然后使用Canny算子找到图片边缘信息后应用一个透视的转换去获取一个文档的自顶向下的正图,最后完成了一个基于Tesseract-OCR的文档扫描识别项目,该实验表明此方法具有准确的识别率,提供多种语言开发调用,以及具备高可用性;可以有效提升数据录入的效率,大大减轻人工的消耗。

  • 单位
    深圳技师学院