摘要

针对大多数基于字典学习的无监督特征选择模型没有充分挖掘数据间的本质关联,降低了特征重要性判断的准确性这一问题,提出一种字典学习与样本关联保持结合的无监督特征选择模型(DLSCP)。首先,从数据中学习字典基完成对原始数据的编码,在字典空间中获得能够反映数据分布的隐表示。其次,进一步在字典空间自适应地学习数据间本质关联,消除冗余特征和噪声特征的影响,从而获得准确的数据间局部几何结构。接下来,利用数据本质关联评估数据特征的关联性和重要性。最后,在TOX数据集上的实验结果表明,DLSCP模型在归一化互信息(NMI)和聚类精度(Acc)两个评价指标上,相较于非负谱分析模型(NDFS)分别提升了13.33和7.95个百分点;相比于隐空间嵌入无监督特征选择模型(LSEUFS)分别提升了15.74和7.31个百分点,验证了DLSCP模型的有效性。