摘要
针对当前谣言检测任务中社交媒体推特平台的推文数据分布复杂且不均衡的特点,提出基于变分自编码器(VAE)的谣言立场分类算法VAE-LSTM。对数据进行预处理后,利用word2vec模型提取推文词向量并输入VAE中进行训练,得到符合简单概率分布的深度特征序列再从中采样获取有效特征,以避免数据量较大的推文类别影响特征向量。在此基础上,使用长短时记忆(LSTM)网络处理向量序列数据进而实现分类。理论分析和实验结果表明,VAE-LSTM算法无须手动提取或添加特征,训练过程简单高效,同时能缓解类间不平衡问题,其应用于实际场景准确率和F1得分分别为0.800和0.494,与时序注意力机制算法、Turing算法、霍克斯过程算法等相比分类性能更好,且较SVM等早期机器学习方法节省了大量数据预处理时间。
- 单位