基于互信息度量的Web信息抽取

张奇; 郝志峰; 温雯; 蔡瑞初

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于互信息度量的Web信息抽取

作者：张奇; 郝志峰; 温雯; 蔡瑞初

来源：计算机应用与软件, 2013, (12): 15-18.

摘要

如何从纷繁复杂的网页中抽取有价值的信息是信息检索和Web数据挖掘中的重要问题。利用网页集信息所呈现的分布特点,提出基于互信息度量的Web信息抽取方法,它能够自动识别噪声信息并保留关键信息。该方法将网页解析成DOM树,计算叶子节点的互信息值;然后按DOM树结构对叶子节点进行分块聚集,向上递归求得标签的互信息值,并以此作为阈值区分噪声与非噪声。最后与多个国内知名网站上的实验及对比结果证明了该方法的有效性。

单位
计算机软件新技术国家重点实验室; 南京大学; 广东工业大学

收藏分享被引浏览

更新时间：2020-06-17 05:13

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号