摘要

中文短文本语义匹配通常使用单词序列而不是字符序列来获得更好的性能。然而,中文分词可能是错误的或者模糊的,分词错误会引入噪声并导致错误传播从而损害最终的匹配性能,同时中文语义经常受到多义词的困扰。为了解决这个问题,提出一种Lattice LSTM+HowNet+Attention模型,使用基于词格结构的长短期记忆网络(Lattice LSTM)融合字符和字符序列的多粒度信息,引入外部知识HowNet解决多义词的问题,并使用软注意力机制(Soft-Attention)获取两个句子间的交互信息。在数据集LCQMC和BQ上进行实验,,并与ESIM、BIMPM和Lattice-CNN模型进行比较,实验证明该模型可以有效提升中文短文本语义匹配的性能。

全文