摘要
在多标记学习中,每个样本都与多个标记关联,关键任务是如何在构建模型时利用标记之间的相关性.多标记深度森林算法尝试在深度集成学习的框架下,使用逐层的表示学习来挖掘标记之间的相关性并利用得到的标记概率表示提升预测精度.然而,一方面标记概率表示与标记信息高度相关,这会导致其多样性较低.随着深度森林的深度增加,性能会下降.另一方面,标记概率的计算需要我们存储所有层数的森林结构并在测试阶段逐一使用,这会造成难以承受的计算和存储开销.针对这些问题,提出基于交互表示的多标记深度森林算法(interaction representation-based multi-label deep forest, iMLDF). iMLDF从森林模型的决策路径中挖掘特征空间中的结构信息,利用随机交互树抽取决策树路径中的特征交互,分别得到特征置信度得分和标记概率分布两种交互表示. iMLDF一方面充分利用模型中的特征结构信息来丰富标记间的相关信息,另一方面通过交互表达式计算所有的表示,从而使得算法无需存储森林结构,大大地提升计算效率.实验结果表明:在交互表示基础上进行表示学习的iMLDF算法取得更好的预测性能,而且针对样本较多的数据集,计算效率相比于MLDF算法提升了一个数量级.
-
单位计算机软件新技术国家重点实验室; 南京大学