摘要

推荐系统是帮助互联网用户克服信息过剩的有效工具。在地学数据共享领域,较其他物品的内容属性,地学数据具有更加丰富的时空属性,这也给地学数据推荐带来挑战。针对地学数据的特点,为地学数据共享推荐服务开发了一种动态加权的混合过滤方法。该方法分别采用协同过滤和基于内容过滤算法预测用户对数据的兴趣度,再以训练模型计算最优加权权重,计算最终预测评分。在数据获取阶段,通过用户访问日志数据,采用Jenks Natural Break算法分析用户访问记录获取用户的数据兴趣度。在基于内容过滤部分,通过数据的空间、时间及内容属性计算数据相似度,并以用户历史行为为依据计算用户兴趣。在协同过滤和基于内容过滤中分别采用k-NN算法计算用户对未访问数据的预测评分,并进行加权求和。通过训练集,对理想权重值及用户的共同评价度(co-rating level)进行建模,拟合二者的关系。该模型被应用于混合过滤的权重调整,以获得最优的加权方程。测试结果显示,结合数据时空属性的混合过滤方法的准确度和召回率,较单一的协同过滤或基于内容过滤方法有显著提高。