摘要
随着工业互联网的快速发展,工业管理网站获得大量应用,网页内容防篡改成为重要的安全问题。在面向工业管理网站的篡改检测问题中,网页表格数据检测是其中的重要环节,实现网页表格数据的自动化提取成为研究人员关注的重点问题。现有的网页表格数据提取方法通常集中于表格自身的结构特征,且多数方法只针对由标签构成的规范化表格,无法提取由其他标签构成的非规范化表格,因此提出了一种基于多特征融合的表格数据提取方法。该方法首先对网页进行预处理,然后根据DOM树节点的标签特征和属性特征进行过滤,再通过相似度聚类算法对路径相似的节点进行分组,最后结合节点簇的尺寸特征和空间特征确定表格区域。实验结果表明,该方法适用于规范化表格和非规范化表格的数据提取任务,具有较高的准确性和通用性。
-
单位通信与信息工程学院; 上海大学