摘要

针对自然场景下化验单文字识别容易出现混淆的问题,提出一种融合语言模型的自然场景下的化验单文字识别后处理矫正方法。该方法通过引入统计语言模型,对识别区域矩阵进行条件概率统计,预测符合医学词库的最佳识别结果,使用基于融合的编辑距离和最长公共子序列方法进行检验项名称矫正,根据检验项对应关系对其他指标进行矫正。引入该方法的后处理结果与不加后处理的识别结果相比,在医疗化验单的识别任务上,获得了准确率、召回率、F1值不同程度的提高。对比实验表明,该方法能够进一步提高文本框文字的识别精度,为后期化验单解读奠定了基础。