摘要

基于大数据技术和常规特征工程的数据预处理方法可以得到适用于机器学习、深度学习等算法模型所需要的数据,但是在数据建模之前对数据特征进行选择和筛选,降低高维数据中的冗余特征以达到最佳模型性能是当今数据科学家们重点研究的内容之一。本文提出了基于XGBoost算法对特征进行贡献度分析作为基础,结合线性搜索的算法对数据进行特征选择,与传统的基于特征空间的搜索算法,具有在更小的搜索空间下找到更优子集的特点。最后讨论了当前基于线性搜索的特征选择的问题和挑战。