摘要
当今数据分析服务在许多领域已经变得至关重要,但与此同时数据分析服务流程模型的构建复杂却严重制约了数据分析服务的发展.近年来研究者将传统的业务服务工作流模型推荐算法引入到了数据分析服务工作流,进行模型推荐.但是数据分析服务工作流与传统的业务服务工作流存在很大的不同,即数据分析中至关重要的数据信息和上下文信息,它们对数据分析服务流程模型推荐的影响十分之大.故本文拟结合数据集的数据特征和文本描述信息来进行模型推荐.通过这些信息定义最佳模型,将数据集数据和文本描述信息特征提取出来,并对比几种不同的特征表示方法对文本描述信息的效果.分类得到模型类型,实验多种相似性距离计算方式,再通过协同过滤算法为用户推荐数据分析服务流程模型.对于实验中Top5模型推荐,其能达到77%左右的准确率.
- 单位