摘要
传统相似度计算方法仅考虑文本结构特征或语义信息,从而导致准确率较低。结合短文本特征稀疏的特性,提出一种多重检验加权融合的短文本相似度计算方法 MCWFS。使用基于改进编辑距离、考虑词频、基于Word2vec与LSTM的3种方法分别计算相似度,对满足多重检验标准的文本进行加权因子线性融合,以避免因一种相似度值过大或过小导致加权相似度值异常的问题。在此基础上,通过加权融合计算短文本相似度,使得计算结果更加准确合理。实验结果表明,相比层层检验和无检验融合方法,MCWFS方法的平均准确率分别提高16.01%和7.39%,且其F1值可达70.21%。
- 单位