摘要

协同过滤算法在遇到数据稀疏性问题时,其相似度计算过程会受到很大的影响,导致推荐结果不准确,影响推荐系统用户体验。而影评网站的影评往往很好地概括了电影的特征,从影评网站的影评文字中可以使用关键字提取算法提取特征来进行电影间的相似性计算。TF-IDF是一种高效而常用的关键词提取技术,其通过特定文档中词的相对频率和整个文档语料库中该词的反比例进行比较,最终得出该篇文章的关键字。利用文本信息提取关键字,进而通过文章的关键字词进行文章的相似度计算,可以有效地改进评价矩阵稀疏的问题。通过爬取电影的评价文字来进行关键字提取,改进评分矩阵较稀疏的电影的相似度计算,可以弥补稀疏矩阵的缺陷。实验结果表明,该算法有效提高了准确率、召回率和覆盖率,证明了算法的可行性。