摘要

汉语和老挝语句子表达存在较大的词序差异,在汉老平行句对语料中融入名词、形容词、量词、数词等词性的位置特征能有效提高句子相似度量的准确性。该文提出一种基于词性句法位置特征的相似度计算方法,首先向汉老双语句子添加特征词标签和特征词性标签使得句子的分布式表示包含更丰富的语义信息,然后利用含有自注意力机制(Self-Attention)的3个不同卷积核尺度的门控线性卷积网络(GCN)和双向长短时记忆网络(BiLSTM)分别挖掘汉老双语句子的深层语义信息,将两个网络输出的特征语义向量拼接,最后计算特征语义向量的相对差和相对积,将二者拼接并输入到全连接层得到汉老双语句子的相似度分数。实验结果表明,该文提出的方法在有限的语料下取得了更好的效果,F1值达到了77.19%。