摘要
长文本匹配是自然语言处理的一项基础工作,在文本聚类、新闻推荐等方面有着关键作用.受语料、篇幅结构、文本表示技术的限制,长文本匹配工作进展缓慢.近年提出的BERT模型在文本表示方面具有非常卓越的表现,而对于BERT来说,长文本的处理有截断法、分段法和压缩法3种常用方式,截断法丢失大量文本信息,分段法保留文本信息却丢失部分语义信息,压缩法可能丢失部分关键信息.针对以上问题,本文对分段法加以改进,提出一种基于BERT的长文本匹配模型(long text matching model based on BERT, LTM-B),它以孪生网络为基础,采用分层的思想将文档切分成多个分段,使用BERT模型处理文本向量化,从而得到文档的矩阵表示,并采用BiLSTM产生位置矩阵,然后将文档矩阵及其位置矩阵求和输入至Transformer编码器进行特征提取,最后将两个文档矩阵进行交互、池化、拼接后经由全连接层分类输出匹配结果.实验表明,相比于其他方法, LTM-B模型在长文本匹配问题上拥有更好的表现.
- 单位