摘要

利用深度学习中的卷积神经网络CNN和长短期记忆人工神经网络LSTM两种方法,结合word2vec词向量工具,对互联网中文短文本平衡数据集进行情感分类,并与传统的机器学习方法进行比较,得到最优的模型。在不平衡数据集上,提出了基于Focal Loss函数改进的二分类平衡交叉熵损失函数Focal Loss-2。实验表明:深度学习算法LSTM-word2vec模型分类准确率最高,达到93.13%;CNN-word2vec模型的训练时间最短,每轮用时27 s;在正类样本少时,Focal Loss-2函数比常用的交叉熵函数正类的模型评价F1值提高了4%左右。统计检验表明:基于Focal Loss-2函数改进的模型在不平衡数据集上的分类性能显著优于以前的模型。

全文