摘要
希尔伯特-施密特独立性准则(Hilbert-Schmidt independence criterion,HSIC)是一种基于核函数的独立性度量标准,具有计算简单、收敛速度快和低偏差等优点,广泛应用于特征选择任务中。然而,大多数基于HSIC的特征选择方法都受到以下限制。首先,这些方法通常只适用于有标记的数据,这是不够的,因为现实世界应用中的大多数数据都是未标记的。其次,现有的基于HSIC的无监督特征选择方法只解决了所选特征与表达底层聚类结构的输出值之间的一般相关性,而忽略了不同特征之间的冗余。为了解决这些问题,提出了一种新的基于HSIC的无监督特征选择方法:UFSHSIC,该方法使用HSIC作为相关性准则来探索特征与总体样本结构之间的相关性及特征与特征之间的冗余度。与其它经典特征选择学习方法在多个真实数据集上的实验对比表明,该方法可以有效从无标签样本中进行特征选择,且选择的特征子集相比有监督特征选择方法而言能产生类似或更好的性能。
- 单位