摘要

针对Siamese-LSTM模型对相似文本特征提取能力差的问题,提出了一种改进Siamese-LSTM的文本相似模型,该方法引入注意力机制,对相似词分配更大的权重,增强了对文本中相似词的识别能力,同时又引入目前先进的预训练模型BERT,提高相似文本上下文中不同词的交互能力,加强词与词之间的关联度,从而实现对相似与不相似文本的识别。实验结果表明,与当前流行的文本相似模型Siamese-LSTM、ABCNN、ESIM,BIMPM和仅引入BERT模型或注意力机制的Siamese-LSTM模型相比,Siamese-LSTM同时融合BERT和Attention的文本相似模型在准确率、精确率、召回率和F1评价指标表现出了很好的效果,在LCQMC和Quora Question Pairs数据集上F1值分别达到了86.18%和89.08%的最佳效果。