一种基于特征符号的网页主题信息抽取方法

作者:王舒; 朱敏; 张明; 牛颢; 赵瑜
来源:计算机应用研究, 2009, 26(12): 4539-4541.
DOI:10.3969/j.issn.1001-3695.2009.12.039

摘要

随着Internet网络的日益普及,Web上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足Web挖掘方法的通用性.通过对Web网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(content extraction characteristic symbols),结合相关度对网页主题内容进行提取.实验证明,所提算法具有很高的准确性和通用性.

全文