摘要

[目的]在多领域数据集的基础上,构建一种基于评论文本深层词关系语义信息提取的支持跨领域中文虚假评论识别模型(CFEE),解决传统识别方法较少考虑中文评论文本中存在着不同领域数据差异性和领域虚假评论数据隐藏性的问题。[方法]提出11条虚假评论数据集建立规则,并以此建立多领域数据集;构建CFEE模型跨领域识别中文虚假评论,其主要功能为基于ERNIE预训练模型提取文本深层语义信息、基于评论文本情感属性识别评论隐藏性、基于卷积神经网络将文本信息投射到词关系维度、基于神经网络融合特征实现分类。[结果]实验结果显示,CFEE模型首先在多领域中文虚假评论数据集上达到91.52%的F1值,其次在手机、食品、服装、家电等单领域数据分别达到85.71%、79.59%、85.71%、85.00%的F1值,效果均显著优于现有模型。[局限]尽管采用客观的规则建立数据集,但仍存在人工标注的主观性。[结论]本文所提出的识别方法能够有效地跨领域识别中文虚假评论,为中文虚假评论识别研究提供一定的参考价值。