摘要
针对高通量测序技术因各种原因导致的DNA甲基化测序数据中包含部分缺失值的问题。提出一种基于变分自编码器的DNA甲基化缺失数据填补模型VAE-MethImp。VAE-MethImp是一种深度隐含空间生成模型,由编码层、隐含层和解码层组成,拥有强大的重构输入数据能力。编码层进行均值和方差的推断;隐含层是通过编码层输出的均值和方差计算出的输入数据的专属正态分布;解码层对隐含层包含的特征进行解码生成重构后的数据。通过在肺癌和乳腺癌上的填补实验证明,VAE-MethImp提取的特征更具信息性。在填补精度上,VAE-MethImp比对照方法(均值(Mean)、最近邻(KNN)、主成分分析(PCA)和奇异值分解(SVD))中最优的SVD提升了4.8%。生存分析实验结果显示VAE-MethImp填补的数据具有更好的预测性,同时也证明DNA甲基化与癌症的生存存在直接关联。
- 单位