一种基于特征符号的网页主题信息抽取方法

王舒; 朱敏; 张明; 牛颢; 赵瑜

doi:10.3969/j.issn.1001-3695.2009.12.039

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

一种基于特征符号的网页主题信息抽取方法

作者：王舒; 朱敏; 张明; 牛颢; 赵瑜

来源：计算机应用研究, 2009, 26(12): 4539-4541.

DOI：10.3969/j.issn.1001-3695.2009.12.039

摘要

随着Internet网络的日益普及,Web上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足Web挖掘方法的通用性.通过对Web网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(content extraction characteristic symbols),结合相关度对网页主题内容进行提取.实验证明,所提算法具有很高的准确性和通用性.

单位
四川省计算机研究院; 四川大学

全文

访问全文

收藏分享被引浏览

更新时间：2023-11-13 13:46

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号