基于块分布的新闻网页内容提取

作者:邱江涛; 唐常杰; 李川; 朱军
来源:吉林大学学报(工学版), 2009, 39(05): 1326-1330.
DOI:10.13229/j.cnki.jdxbgxb2009.05.042

摘要

提出一种新的新闻网页内容提取方法。与已有的研究相比,它自动判别网页是否含有主内容,并且回避了模板和DOM-Tree方法所带来的局限。主要工作包括:①提出了一种网页分块方法,通过一趟遍历将网页主内容和噪声划分到不同的块中;②提出网页块分布的概念并研究了块分布的属性,根据块分布可以有效地使用分类方法来判别网页是否有主内容,采用孤立点分析的方法从网页块分布中提取主内容。本文通过理论和实验证明了该方法的有效性。

全文