摘要
短文本分类是自然语言处理中一项具有挑战性的任务。目前利用外部知识处理短文本稀疏性和歧义性的传统方法取得了较好的效果,基于RNN的方法在并行化方面表现不佳,导致效率较低。基于CNN的方法可以捕捉局部特征,但由于忽略上下文相关的特征以及一词多义等问题,准确率还有待提高。针对以上问题,提出基于CNN与TCN相结合,并加入权重优化与注意力机制的短文本分类模型。使用Probase作为外部知识来丰富语义表示,解决特征稀疏和语义不足的问题,通过BERT训练词向量,引入词性和词语权重对词向量优化,将优化的词向量作为输入层信息,经过CNN和TCN相结合的方法提取特征,最后结合注意力机制拼接向量,突显关键信息,获得文本特征表示。实验表明,与几种常用的基于CNN和RNN的短文本分类方法相比,该方法在短文本分类中更加准确高效。
- 单位