融合关键词和语义特征的汉越文本相似度计算

潘润海; 高盛祥; 余正涛; 刘奕洋; 尤丛丛

摘要

汉越文本相似度计算是实现汉越文本理解和文本分类的基础。目前使用神经网络来计算文本相似度是一个有效方法，但由于文本较长、冗余信息较多，神经网络难以有效捕获文本间的相似信息，同时汉-越平行语料稀缺导致模型泛化性能一般，此方法受到一定限制。故提出一种融合关键词和语义特征的汉越文本相似度计算方法。针对文本较长冗余信息较多，提出使用文本关键词来获得文本关键信息以压缩文本减少冗余，同时计算出文本间关键词相似信息；针对汉-越平行语料稀缺，提出使用知识蒸馏的方法来训练神经网络来对文本进行编码，得到上下文语义特征；最后将词的相似信息和上下文语义特征融合实现文本相关性判断。实验表明，本文提出的方法能有效提升汉-越文本相似度计算的准确率。

单位
自动化学院; 昆明理工大学

收藏分享被引浏览

更新时间：2021-11-09 02:20

融合关键词和语义特征的汉越文本相似度计算

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友