基于视觉特征去噪和DOM树的网页信息提取方法

陈壮; 葛斌<sup>*</sup>

doi:10.16207/j.cnki.1009-4490.2021.04.017

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于视觉特征去噪和DOM树的网页信息提取方法

作者：陈壮; 葛斌^*

来源：山西师范大学学报(自然科学版), 2021, 35(04): 116-121.

DOI：10.16207/j.cnki.1009-4490.2021.04.017

摘要

针对网页内容信息问题,提出了一种基于视觉特征去噪和DOM树的网页信息提取方法.该方法将网页解析成DOM树,使用视觉特征和正则表达式过滤的方法去除噪声信息,通过重复水平、垂直拆分过程对网页进行分区得到组成块,最终将两个启发式规则加权平均计算组成块的分数,获得信息块.为了提高方法的通用性,在分数的计算公式中增加了系数并且可调系数权重.试验结果表明,相比于PPR方法,该方法的准确率提高了13.69%,同时提高了网页信息的提取速度.

单位
安徽理工大学

全文

访问全文

收藏分享被引(1) 浏览

更新时间：2024-04-17 14:03

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号