摘要
词语语义相似度计算是自然语言处理领域研究的基础。针对基于路径方法中普遍存在的密度不均匀性问题,提出融合路径距离与信息内容方法,通过一个平滑参数将路径和信息内容融合调整概念间的语义距离,使路径方法计算的相似度值更加合理。该方法具有较少的参数,能够避免其他方法因引入参数过多带来的过拟合问题,具有较好的通用性。实验结果表明:本文方法计算的相似度值与国际标准测试集人工判定值的皮尔逊相关系数达到了0.852 3,具有较好的性能。同时对实验结果分析发现,结果受算法参数的影响甚小,表明本文提出的算法具有较强的鲁棒性。
- 单位