摘要

针对伪装型垃圾网页的隐藏性、欺诈性和难以检测等问题,运用二元分类方法对伪装型垃圾网页进行检测。该方法将网页分解成内容特征和链接特征,并采用朴素贝叶斯(NB)算法对伪装型垃圾网页进行分类检测。最后,将NB算法和几种常见的分类算法在同一数据集上进行测试,结果表明,朴素贝叶斯算法的综合评价F1值达到94.64%,明显高于其余几种分类算法,能够有效地检测出伪装型垃圾网页,提高网络信息检索质量。