摘要

神经影像技术和分子遗传学的发展产生了大量的影像遗传学数据,极大地促进了复杂精神疾病的研究。但因为该数据的特征维度过高且相关性的度量都是假设数据服从高斯分布,所以传统的算法往往无法很好地解释两类数据之间的依赖关系。为了解决传统算法的问题,文中提出了一种对大量SNP和fMRI数据进行关联分析的方法,该方法通过构建稀疏的特征网络结构来指导fused lasso进行特征选择,与此同时,该方法利用高阶统计量提取出具有统计显著性的变量,从而识别出与精神疾病有关的生物标记物。实验结果表明,在模拟数据中所提算法得到的典型向量值的分布与实际数据中值的分布几乎一致且得到的相关系数与数据集中实际的相关系数最接近,所提算法的平均相关系数最高达到81%,比L1-SCCA提高了约20%,比FL-SCCA提高了约3%;在真实数据中,相比另外两种算法,所提算法可以找出更多的对精神分裂症有潜在影响的基因与脑区。实验结果证明:该算法可以在合理时间内有效识别出风险基因和异常脑区。