摘要
随机子空间集成方法是集成学习中的一个重要部分,它通过随机选取原特征空间中的数个子空间构建基分类器并集成基学习器得到最终的结果。随机子空间集成方法尤其适用于特征维度高于样本数量的情况,而传统的随机子空间集成对高维数据采集大量的子空间且子空间之间存在很高的冗余度,从而导致模型获得较差的性能。因此,提出了一种无监督和不需要训练的差异性随机子空间集成算法。该算法利用多核最大均值差异(maximum mean discrepancy,MMD)作为子空间的相似性度量,并利用谱聚类算法将高相似性子空间聚类,从中选择一个代表性子空间,从而得到差异性子空间集合。实验表明,基于差异性随机子空间集成的模型在使用较少的基学习器时依然能获得较好的性能,尤其在具有很高的特征-样本比的数据集上。
- 单位