摘要
旋转森林RoF (Rotation Forest)是一种功能强大的集成分类器,它在高光谱图像分类中已经获得了很多成功的应用。然而,现实数据经常存在类别不平衡的问题,这使得传统的RoF算法侧重识别多数类别的样本,而忽略了少数类样本的分类精度。SMOTE (Synthetic Minority Oversampling Technique)算法通过模拟生成新样本的方式来增加少数类别样本的数量,进而达到平衡数据集类别的效果;但是SMOTE算法目前主要被用于数据预处理阶段,并且在处理多类问题时具有增加人工噪声的风险。为了解决高光谱数据学习中的多类不平衡问题,本文提出了一个新的SMOTE和RoF动态集成算法;该算法利用动态采样因子技术,将类别分布优化和基分类器训练过程进行融合。本实验利用Indian Pines、Salinas以及Pavia University这3个公开的高光谱数据对新的SMOTE和RoF动态集成算法的性能进行测试,同时选取4种对比算法,包括随机森林、传统的RoF以及通过随机过采样和SMOTE数据预处理后的RoF算法,并且采用总体分类精度、平均分类精度、F-measure、Gmean、最小召回率、集成分类器多样性、模型训练时间以及McNemar测试等为算法性能评价标准。实验结果表明本文方法具有明显的分类优势,可以保证在增加数据总体分类精度的基础上提高小类别样本的识别精度。
-
单位中国科学院; 电子工程学院; 西安电子科技大学