基于词向量模型的中文序列比对研究

熊回香; 赵登鹏; 卢晨凡

doi:10.13266/j.issn.0252-3116.2020.10.010

摘要

[目的/意义]针对生物信息学中著名的序列比对算法在文本相似度中的应用,改进前人的方法并提高文本相似度计算的准确性。[方法/过程]首先,对目标文本进行规范化处理,构成中文序列集。随后,利用训练好的Word2vec中的Skip-Gram模型来构建该中文序列集的语词对打分矩阵并制定好打分规则。最后,对中文序列两两进行全局比对并获得比对的最优解,回溯得到最优解的比对路径,计算中文序列的相似度。[结果/结论]实证结果表明,相较于传统方法,本文方法融合词向量模型提升文本相似度计算的准确性并有效解决传统方法中出现重复词对的问题。

单位
华中师范大学; 上海财经大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-10-24 22:08

基于词向量模型的中文序列比对研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友