摘要

制度及规范性文件是内部审计人员开展现场审计工作以及审计发现问题定性时的重要依据,经常需要反复检索查阅,但由于政府机关的电子制度文件主要以纸质扫描图片或电子公文系统生成的pdf文件等形式保存,无法进行全文检索。为此,笔者运用Tesseract-OCR开源OCR引擎,将图片和pdf文件中的文字内容识别并提取出来,为实现制度内容的全文检索奠定了基础。

  • 单位
    中国人民银行