摘要
针对当前垃圾邮件账户撰写虚假在线评论,降低评论网站可信度的问题,提出一种基于自然语言处理和机器学习的短文本作者识别算法,该算法将自然语言处理技术(Natural Language Processing, NLP)与不同的机器分类器相结合,根据多个不同的语言特征解决了简短嘈杂的评论文本的作者识别问题.实验结果表明,相对于基线模型而言,本文算法在引入NLP技术后,仅采用一元语法和一元与二元语法相结合的两个N-gram模型的分类精度均有明显提高,充分说明本文算法的有效性.
-
单位信阳农林学院