摘要

该文利用了分布式方法构建分布式语义相关度计算框架,提出了分布式语义分析的新方法,构建巨大的语义空间。该方法通过构建一系列的概念向量以及与其相关的维基百科中的词构成概念向量的维数,从而构建概念-词语矩阵。然后,通过提取概念-词语矩阵的两个词语向量,根据它们的余弦测度计算两个词语的语义相关度。该方法建立在开源分布式计算框架Spark上。对比已有的显式语义分析(Explicit Semantic Analysis Method)方法,该文提出的方法在构建概念-词语向量空间时,明显地减少了计算时间。同时,实验结果表明,数据量足够大时,本方法的Spearman相关系数达到0.797。

  • 单位
    南京信息职业技术学院

全文