摘要

[目的] 增强虚假评论识别任务中模型对文本深层语义信息的学习,并解决虚假评论识别任务中存在的严重的数据不平衡问题。[方法] 基于数据本身的用户行为特征与文本特征进行类间可分性计算自动学习代价敏感矩阵,增强模型对不平衡数据的学习能力;同时利用BERT在文本编码方面的能力对模型进一步优化。[结果] 通过在YelpCHI数据集上进行大量实验,对比现有先进方法,所提模型的F1值得到了18%的提升,AUC值得到了12%的提升。[局限] 将所提方法应用到更多的研究领域中有待进一步探索。[结论] 将用户行为特征与评论文本特征看作虚假评论类与真实类之间的特征集合进行类别可分性计算能够有效增强模型对虚假评论识别的性能。