摘要
针对传统分类模型在处理不平衡数据时会侧重于大类而忽略小类的问题,提出了一种复合可靠性分析下的不平衡数据证据分类方法,通过评估分类模型的全局可靠性和局部可靠性来提升模型对每个不平衡测试样本的分类能力。首先,对大类多次降采样,采样后的数据与小类组成多个训练子集,用这些子集训练得到多个分类模型,通过最大均值差异度量采样前后数据分布的差异性得到不同分类模型的全局可靠性。其次,利用待测样本在训练集中的近邻来评估其分类结果的局部可靠性,待测样本与其近邻具有相似的数据分布和空间结构,分类模型对近邻的分类结果与真实类别偏差越小,其局部可靠性就越大。最后,在证据推理框架下,全局可靠性与局部可靠性组合为复合可靠性因子对不同分类模型得到的分类结果进行折扣,将部分概率值分配给完全未知类来表征数据类别的不确定性,用Dempster-Shafer (DS)规则融合多个折扣后的分类结果做决策分析。实验结果表明:所提方法对KEEL和UCI数据库的12个不平衡数据分类结果的平均FM为80.18%,GM为87.24%,相较于其他不平衡数据分类方法中最优结果分别高出8.1%和4.99%。所提方法的有效性在不平衡数据分类中得到了证实。
- 单位