摘要
针对PDF投标文件中非文本信息误识别以及由于投标书结构不规范导致的识别精度差的问题,提出了一种基于电子招投标平台的文本段落识别方法。首先,对投标文件图像进行OCR预处理来提高文本的识别率,其中包括图像增强、版面切割、二值化以及版面分析四部分操作。其次,将版面分析提取的重点文本区域解析以便于精准段落提取,提高后续关键词提取的准确度。最后,识别结果经过文本向量化处理以及WL-CNN模型训练能够提高主题词提取精度,进一步辅助专家评标。实验结果表明,所提出的方法使得专家评审效率大大提高,加快了工程建设领域整个电子招投标过程的进度。
-
单位山东高速集团有限公司