摘要

特征选择是多标记学习中重要的预处理过程.针对现有多标记分类方法没有考虑标记占比对特征和标记相关性的影响,以及不能有效处理弱标记数据等问题,提出一种基于仿射传播(affinity propagation, AP)聚类和互信息的弱标记特征选择方法.首先,在AP聚类的基础上,结合剩余标记信息和样本相似性,构建概率填补公式,预测缺失标记值,有效补齐缺失标记;然后,使用先验概率定义标记占比,结合互信息构建相关性度量,评估特征与标记集之间的相关程度;最后,设计一种弱标记特征选择算法,有效提高弱标记数据的分类性能.在6个多标记数据集上进行仿真实验,结果表明,该算法在多个指标上获得了良好的分类性能,优于当前多种相关的多标记特征选择算法,有效验证了所提算法的有效性.