摘要

BERT是近两年提出的最为综合性的语言模型,在各项自然语言处理任务中都有不俗的表现。Softmax分类算法也是最为常用的分类算法,传统的softmax算法在学习同类和不同类样本时,用的是同一种格式,从而学习到的特征的类内和类间的可区分性不强。而A-softmax算法在学习同类样本时,增加了同类学习的难度,这样的区别对待会使得特征的可区分性更强。基于此,提出利用A-softmax来替代传统的softmax,从而使BERT模型更好地应用于中文文本分类任务中。并进一步提出将BERT与SVM结合,来探讨深度学习中的语义特征和传统统计特征融合的可行性。模型在相同的语料库上进行实验,结果表明,相比基于传统softmax的文本分类方法,基于A-softmax的中文文本分类的准确率更高,泛化能力更强,具有良好的分类性能,且将BERT与SVM结合比传统SVM分类准确率更高。