摘要
在针对广告博文进行识别过程中,首先构建文本特征向量和人工定义的特征向量,使用堆叠降噪自编码机对这两种特征向量进行处理,获得处理后的两种特征向量,然后将得到的这两种特征向量进行组合得到第三种特征向量.最后将这三种特征向量用于最大熵分类模型的训练,依据实验结果找出分类效果最好的模型,使用该模型对博文进行处理过滤掉其中的广告博文,实验证明得到的最大熵分类模型的P、R、F可达到65.58%、87.9%、75.12%,能有效识别绝大多数的广告博文.
-
单位自动化学院; 昆明理工大学