压缩感知理论在小样本量蛋白质组学变量筛选研究中的应用

作者:张薇; 张秋菊; 王玉鹏; 谢彪; 孙琳; 高兵; 叶倩; 田伟; 侯小文; 刘美娜*
来源:中国卫生统计, 2019, 36(05): 649-657.

摘要

目的探索基于压缩感知理论变量筛选方法在小样本量蛋白质组学研究中应用的效果和特点,为小样本量的蛋白质组学的变量筛选提供更灵敏、可靠的方法。方法模拟实验比较基于CS理论的变量筛选方法与偏最小二乘(PLS)及随机森林(RF)筛选变量的能力,通过灵敏度、特异度及平衡准确度评价其变量筛选效果;利用CS变量筛选方法筛选非小细胞肺癌两亚型组(腺癌和鳞状细胞癌)的差异蛋白。结果模拟实验表明,CS理论的变量筛选方法在样本量较小时具有较好的变量筛选效果,灵敏度、特异度及平衡准确度均较高;利用基于CS理论的变量筛选方法筛选,获得肺腺癌和鳞状细胞癌间差异表达蛋白22种,被证明是肺腺癌和鳞状细胞癌间有差异的蛋白为:Cytokeratin 6A、Cytokeratin 6B、Cytokeratin 6C、PKP1、P63、MCT1。结论基于CS理论的变量筛选方法在样本量特别少时,筛选变量的效果优于PLS和RF,更适用于小样本蛋白质组学数据变量筛选研究。