摘要

针对现有聚类方法中存在的服务表征向量生成质量较差问题,提出了一种面向描述语境特征词与改进GSDMM模型的服务聚类方法。首先,构建了基于语境权重的特征词提取方法,将与服务描述语境契合度高的词语抽取出,构建用于服务表征向量生成的功能特征词集合。然后,建立了带有主题分布概率修正因子的GSDMM模型,实现服务表征向量的生成以及非关键主题项概率分布修正。最后,基于修正后的服务表征向量,采用K-means++算法实现服务聚类。以Programmable Web上真实服务进行了多轮次实验,实验结果表明,采用所提方法生成的服务表征向量质量显著高于其他常用主题模型,所构建的服务聚算法性能优于其他常用算法。