一种DOM树标签路径和行块密度结合的Web信息抽取方法

马晓慧; 李泓莹

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

一种DOM树标签路径和行块密度结合的Web信息抽取方法

作者：马晓慧; 李泓莹

来源：智能计算机与应用, 2017, 7(04): 13-20.

摘要

本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。

收藏分享被引浏览

更新时间：2024-05-11 13:05

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号