摘要
本文基于协同训练模型(co-training)提出了一种新的在线虚假评论识别方法CoDeRI以解决虚假评论识别中模型训练数据不足的问题.对同一评论信息,本文通过构建两个特征视图相互学习以识别虚假评论信息:视图一的特征来自于评论文本的词项(Term);视图二的特征来自于对评论进行深度语法树分析之后得到的概率上下文无关语法规则(PCFG,probabilistic context-free grammars).利用朴素贝叶斯(na?ve Bayes)作为基分类器,本文提出了两种特定于CoDeRI方法的分类后样本选择策略:CoDeRI-C策略和CoDeRI-U策略.CoDeRI-C策略在对未标注信息进行标注之后,选取分类置信度最高的评论信息以扩大训练样本集;CoDeRI-U策略则随机均匀的选取标注之后的评论信息以扩大训练样本集.实验表明,CoDeRI算法在虚假评论信息识别上与现有方法相比能够取得较好的分类结果.并且,CoDeRI-U策略的虚假评论识别准确率优于CoDeRI-C策略.本文的研究为电子商务中的平台、商家和消费者如何识别在线虚假评论提供了一定的管理启示.
- 单位