语法分析与纠错相结合的文档结构重构方法

作者:张真; 李宁*; 田英爱; 耿思; 许洁
来源:北京信息科技大学学报(自然科学版), 2019, 34(02): 29-34.
DOI:10.16508/j.cnki.11-5866/n.2019.02.007

摘要

对于传统方法在处理结构不规范的流式文档时的不足,提出一种左角分析和纠错规则相结合的新的流式文档结构重构方法。使用XML Schema构造文档逻辑构件的排版规则语法树;在排版规则语法树引导下,利用左角分析方法分析文档的逻辑构件,实现文档结构的重构;结合纠错规则对文档中的错误进行判断和改正,保证文档结构重构过程的顺利进行,得到最佳的流式文档结构。实验结果表明,所提方法在流式文档结构重构过程中的容错能力和识别准确率均优于其它算法。

全文