一种基于分类算法的网页信息提取方法

汪建伟; 杨冬青; 高军; 王腾蛟

doi:10.3969/j.issn.1002-137X.2008.03.026

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

一种基于分类算法的网页信息提取方法

作者：汪建伟; 杨冬青; 高军; 王腾蛟

来源：计算机科学, 2008, (3): 91-93.

DOI：10.3969/j.issn.1002-137X.2008.03.026

摘要

在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识.本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对web页面的信息提取.这种提取方法操作简单,易于实现,对网页结构的依赖性小.

单位
中国人民解放军军事交通学院; 北京大学

全文

访问全文

收藏分享被引浏览

更新时间：2023-11-15 04:18

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号