摘要
集成特征选择算法将多种特征选择方法结果结合在一起,旨在得到更加有效的特征子集.然而这些算法通常假设每种特征选择方法是平等的,没有考虑不同特征选择方法性能的差异性,导致少数方法选择出的有效特征被忽略.为解决这一问题,本文提出一种可以有效地结合不同特征选择方法优势,并利用专家的知识逐步改善所选特征的交互式特征选择方法.该方法包括一个基于众包学习的集成特征选择算法和一个基于该算法开发的可视分析系统.基于众包学习的集成特征选择算法利用众包学习模型对不同特征选择方法的性能进行建模,计算每种方法的可靠性,并在此基础上将这些方法的结果有机融合.可视分析系统提供了丰富的排序方式,帮助专家理解单个特征选择方法的特征选择结果和特征在分类任务中所起的作用,从而让专家交互迭代地改善现有特征子集.在4个真实世界数据集上的数值实验表明,相比于现有的集成特征选择算法,本文提出的算法能够带来0.63%~2.85%分类准确率的提升.此外,在文本和图像数据集上进行的两个案例分析表明,本文提出的可视分析系统能够进一步带来0.28%~5.24%的分类准确率提升.
- 单位