一种基于分类算法的网页信息提取方法

作者:汪建伟; 杨冬青; 高军; 王腾蛟
来源:计算机科学, 2008, (3): 91-93.
DOI:10.3969/j.issn.1002-137X.2008.03.026

摘要

在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小.

  • 单位
    中国人民解放军军事交通学院; 北京大学

全文