摘要
随着大数据时代的来临,数据维度爆炸式增长,超高维数据的降维问题逐渐成为众多研究领域的热点话题。由于响应变量通常存在右删失,处理超高维完全数据的降维方法在右删失数据中将不再适用。本研究提出一种新的基于距离相关能有效处理超高维右删失数据的特征筛选方法。首先利用距离相关系数计算每个协变量对响应变量的边际效应,建立与该系数有关的筛选指标,然后再根据事先确立的筛选准则进行特征筛选。提出的特征筛选方法不依赖任何模型结构假定,因此可以有效避免模型指定错误带来的不良后果。此外,该方法采用的距离协方差估计量是总体距离协方差的一个无偏估计,统计准确性和计算精度高。模拟和实证研究表明,提出的方法能在保留所有重要变量的前提下快速剔除与响应变量相关程度较弱的协变量,从而达到降低参数维数的目的。
- 单位