摘要
电子商务平台常常充斥着大量恶意抬高或贬低商品名誉的虚假评论,这严重影响了市场竞争的公平性,给消费者在线选购合适商品带来了巨大困扰。有效识别并规避这些虚假评论是保障电商平台有效运行与持续增长的重要环节。在本文的研究中,首先通过招募志愿者完成真实与虚假评论数据集的收集,然后基于TFIDF和CountVectorizer完成文本特征化,最后基于朴素贝叶斯模型训练了一个有监督虚假评论分类器。测试结果显示,该分类器能够有效挖掘真实/虚假评论模式,最高准确率和F1得分分别为80.1%和73.0%,理论上能够应用于电商平台上中文垃圾评论的检测任务中。
- 单位