摘要

针对恶意评论的文本分类任务存在的词向量单一和样本数据集有限而导致模型稳健性降低的问题,提出一种结合词向量集成技术和数据增强技术的ENSVEC-DA恶意文本分类模型。首先从文本数据中抽取一部分评论将其依次翻译成西班牙语,德语和法语,再翻译回英文,由此达到数据增强的作用;其次对应文本评论中的单词,在两个在不同语料库上预训练好的词向量包中寻找所对应单词的数值向量,并将两者相加取平均值,进而完成集成词向量的工作;然后基于同一测试集在RNN网络中进行四组对比实验,并根据四组实验所得到的恶意评论分值(分值越大,恶意可能性越高)计算三种评估指标;最后经对比分析评估指标可得出结论:词向量集成技术和数据增强技术能够使ENSVEC-DA恶意文本分类模型在某种恶意评论预测性能上有所提升。

  • 单位
    大连外国语大学