摘要

现有方法在进行票据的识别时,需要特定设备扫描或大量的票据标签才能达到很好的识别效果。为了解决上述问题,提出了采用OCR技术进行票据识别算法。该算法是由OCR识别和N版本程序策略两部分组成。在OCR识别阶段,采用了OCR进行票据文字的识别,将识别后的非结构化数据转化为结构化数据。在N版本程序设计策略中,提出了两种算法:前者进行主关键字的匹配;后者通过选择基准,计算字符大小从而推算出其它字段。选取火车票和发票作为实验数据,广泛的实验结果证明:算法在自然场景下票据识别具有很好的结果。