摘要
高维数据的变量选择是统计学家面临的主要问题之一。随着现代科学与技术的发展,统计分析者面临的数据越来越复杂,数据量也越来越大,海量的高维数据和超高维数据让统计分析工作颇具挑战性,各种各样的污染数据和异常数据也掺杂其中,如何有效地分析所得到的高维数据,是现代统计学面临的挑战之一。变量选择作为处理高维数据的一种主要思路,以模型的稀疏性假定为前提,即假定只有少量的解释变量对响应变量有显著影响,从而利用各种选择方法估计模型,提高模型的解释性。本文主要介绍几种处理高维数据和超高维数据的变量选择的方法,阐述各个方法的同时也对方法之间的改进和优缺点做了对比,发现方法之间的合理结合会产生良好的变量筛选效果。