摘要
针对自制电影数据集中电影的排序问题,文章提出了一种基于RF的Bootstrap自适应双集成排序学习方法(RandomForest-based Bootstrap Self-adaptive Double-ensemble, RF-based BSD)。先利用电影媒体网站数据构建21个特征自建基于排序学习格式的电影数据集,BSD会根据输入数据集的查询数、查询-电影对数和特征数,通过Bootstrap自适应函数自动确定RF的子采样比例,然后使用单集成模型(比如MART, Multiple Additive Regression Tree,多重累计回归树)作为基学习器进行训练,最后采用bagging思想输出最终的双集成模型。实验结果显示,对比两个评价指标NDCG(Normalized Discounted Cumulative Gain,归一化折扣累计增益)和MAP(Mean Average Precision,平均值均值)的评估效果,发现BSD输出的双集成模型比单集成模型在两项指标上均有1%-3%左右的提升。