基于多特征融合的网页表格数据提取方法

马佳芸; 杨林峰

摘要

随着工业互联网的快速发展，工业管理网站获得大量应用，网页内容防篡改成为重要的安全问题。在面向工业管理网站的篡改检测问题中，网页表格数据检测是其中的重要环节，实现网页表格数据的自动化提取成为研究人员关注的重点问题。现有的网页表格数据提取方法通常集中于表格自身的结构特征，且多数方法只针对由标签构成的规范化表格，无法提取由其他标签构成的非规范化表格，因此提出了一种基于多特征融合的表格数据提取方法。该方法首先对网页进行预处理，然后根据DOM树节点的标签特征和属性特征进行过滤，再通过相似度聚类算法对路径相似的节点进行分组，最后结合节点簇的尺寸特征和空间特征确定表格区域。实验结果表明，该方法适用于规范化表格和非规范化表格的数据提取任务，具有较高的准确性和通用性。

单位
通信与信息工程学院; 上海大学

收藏分享被引浏览

更新时间：2024-03-19 13:17

基于多特征融合的网页表格数据提取方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友