摘要
目的比较5种常用的变量筛选方法在高维生物医学数据变量筛选中的实际效果,探讨样本量和变量间关联性对变量筛选效果的影响,为制定高维生物医学数据分析中的变量筛选策略提供依据。方法基于R语言实现变量筛选算法,通过Monte Carlo算法模拟产生不同条件下的高维数据,用于评估和比较不同方法在特定数据条件下的变量筛选效果。以筛选结果的真阳性率、真阴性率作为变量筛选效果的评价指标。结果在设定的高维数据情况下,样本量增加时,各变量筛选方法的筛选效果均变好,变量间的关联性对变量筛选的效果也有影响。模拟结果显示,5种方法中弹性网算法的变量筛选效果最好,LASSO算法次之,岭回归算法完全没有起到变量筛选的作用。结论在进行高维生物医学数据的变量筛选时,弹性网算法是一种比较理想的变量筛选方法。
-
单位公共卫生学院; 西安交通大学