摘要
目的对高维数据进行变量筛选并构建预测模型是组学数据分析的研究热点之一。本研究旨在为结局为二分类变量的高维组学数据筛选自变量并构建预测结局的稀疏统计模型。方法本研究通过模拟研究和实例分析阐释基于non-local先验的贝叶斯变量选择方法——乘积逆矩先验(product inverse moment,piMOM)相较于惩罚类方法ISIS-光滑平切绝对偏差(iterative sure independence screening-smoothly clipped absolute deviation,ISIS-SCAD)和ISIS-最小最大凹惩罚(iterative sure independence screening-minimax concave penalty,ISIS-MCP)在高维数据中变量筛选及其预测效果的性能优劣。结果模拟研究发现:在高维的情况下,经piMOM、ISIS-SCAD和ISIS-MCP方法筛选所得变量的平均真阳性数和受试者工作特征曲线下面积(AUC,area under curve)基本相等,ISIS-SCAD、ISIS-MCP的平均假阳性数、回归系数均方误差以及预测均方误差明显高于基于non-local先验的贝叶斯变量方法所获得的对应值。piMOM方法分析弥漫大B细胞淋巴瘤实例数据共识别5个有意义的基因,AUC为0.996;ISIS-SCAD识别7个基因,AUC为0.975;ISIS-MCP识别7个基因,AUC为0.968。结论在模型选择相合性和预测准确性方面,piMOM方法与ISIS-SCAD和ISIS-MCP相比,具有优势,在一定意义上可有效控制假阳性率。
-
单位山西医科大学; 公共卫生学院