摘要
网络论坛的分类和正文提取是网络数据挖掘的一项重要技术.传统的网页分类方法没有考虑到论坛网址的结构特性,以内容特征为根据,易受噪声影响,效率较低,难以满足通用性的需求.传统的正文提取方法以文本密度和布局结构为依据,忽视了论坛内容的语义信息,难以从多样化的论坛中有效提取正文.本文提出基于网址结构的聚类方法(Universal Resource Locators’Structure Clustering,USC)以及基于词汇关键程度的关键词打分筛选方法(Keyw ord Scoring Filter,KSF).两种方法仅需要对数据集中的少量样本进行解析,提取出通用规则,便可满足大规模提取的需要.实验验证,在相同测试集下,USC方法的F值较传统分类方法高18.99%,KSF方法的准确率较传统正文提取方法高18.46%,适合大规模论坛提取作业.
-
单位生命科学研究院; 计算机软件新技术国家重点实验室; 山东师范大学