摘要
为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法。首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量;使用其生成的词向量作为TextCNN的输入;然后使用批量标准化,减少梯度消失的情况发生;最后使用Softmax进行分类概率计算。为了验证本算法的有效性,在弹幕数据集上进行训练,和多个文本分类算法进行对比实验。其结果表明,本算法可以改进算法运行速度,提高在垃圾弹幕识别和过滤上的性能。
- 单位