基于通配符节点话题权重的Web新闻抽取方法

张恺航; 徐克付; 张闯

doi:10.19678/j.issn.1000-3428.0050057

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于通配符节点话题权重的Web新闻抽取方法

作者：张恺航; 徐克付; 张闯

来源：计算机工程, 2019, 45(04): 275-280.

DOI：10.19678/j.issn.1000-3428.0050057

摘要

现有Web新闻内容自动抽取方法多数未考虑文本中的话题特征,容易将样式排版与正文相似的噪音文本识别为正文内容。为此,提出基于通配符节点话题权重的抽取方法。将HTML文档解析成DOM树后,匹配DOM树对应的通配符树,并计算每个通配符中的话题权重,将高权重话题的通配符节点所覆盖的文本节点识别为正文节点。实验结果表明,与传统新闻抽取方法相比,该方法能降低Web新闻内容边缘噪音文本的错误识别率,抽取的新闻内容准确率更高。

单位
广州大学; 中国科学院大学; 中国科学院信息工程研究所

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-10 19:15

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号