融合词语多特征的汉老短文本相似度计算

郭雷; 周兰江; 周蕾越

doi:10.20009/j.cnki.21-1106/tp.2021-0626

摘要

词语作为文本构成中最具有语义表达的单位，将词语更多的特征如形态学、词性、词性权重等融入到词语语义的表达中，将提升文本相似度量的准确性.该文提出一种融合词语多特征的汉老短文本相似度计算方法，首先利用双向长短期记忆网络(BiLSTM)和卷积神经网络(CNN)分别提取汉老词语的形态学特征，将词向量拼接上形态学特征向量、词性向量、词性权重向量，然后利用BiLSTM和CNN提取汉老短文本的上下文特征和局部语义特征，接着加入ESIM交互注意力机制使汉老语义信息进行交互.最后计算汉老特征语义向量的相对差和相对积，将其结果拼接并输入到全连接层得到汉老双语短文本的相似度分数.实验结果表明，本文提出的方法在有限的语料下取得了更好的效果，F1值达到了78.67%.

单位
昆明理工大学; 昆明理工大学津桥学院; 自动化学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 02:43

融合词语多特征的汉老短文本相似度计算

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友