摘要
针对正则表达式解析招投标网页效率低下的问题,提出了一种基于招投标领域本体的网页自动化解析新方法。首先,分析了招投标网页文本的结构特征;其次,构建了招投标本体的轻量级领域知识模型;最后,给出一种招投标网页元素语义匹配与抽取算法,实现招投标网页的自动化解析。实验结果表明,新方法通过自适应的解析,准确率、召回率分别可达到95. 33%、88. 29%,与正则表达式方法相比,分别提高了3. 98个百分点和3. 81个百分点。所提方法可实现自适应地对招投标网页中语义信息的结构化解析抽取,能够较好地满足实用性能要求。
- 单位