摘要

随着社交网络的应用普及,部分用户的网络不当言行严重破坏了社交网络的秩序,不仅对其他用户产生了负面影响,同时也使得社交网络中充斥着欺骗性和危险性。因此,提出基于特征选择与随机森林的混合模型,用以检测网络社区中的恶意评论。使用爬虫技术获取一个中文论坛中8,869名用户的历史发言记录,以管理员对评论的处置为依据,提取了言论中恶意行为的相关特征,使用主成分分析法(PCA)对特征进行降维,结合随机森林算法建立模型,用以发现在线讨论社区中具有恶意行为的评论。实验结果表明,判断的准确率达到87.0%,所采用的模型对恶意评论具有良好的检测效果,为净化社区环境提供技术支持。