摘要
针对社交媒体虚假新闻检测问题,为实现快速有效的检测,提出了一种利用机器学习算法进行虚假新闻检测研究的方法。首先通过词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)算法提取文本特征向量,然后使用K折交叉验证法寻找支持向量机 (support vector machines,SVM)模型的最优参数,最后利用已寻找的最优参数训练SVM模型,并对新闻数据集进行真假新闻分类,从而识别出虚假新闻。实验结果表明,与朴素贝叶斯和决策树算法相比,提出的方法在虚假新闻检测问题上表现出较好的评价指标,其中正确率、召回率和F1值高于其他两种方法,ROC曲线也优于其他两种算法。
- 单位