摘要
[目的]本文旨在探索不同情况下多性状联合插补分析对缺失表型的预测效果。利用统计学方法对缺失表型进行有效预测,可以增大样本量并提高数据分析的准确性。[方法]利用均值法、K邻近(K-nearest neighbor, KNN)、决策树、多重插补法(multiple imputation by chained equations, MICE)、PHENIX(phenotype imputation expediated)和softImpute插补方法对多表型模拟缺失数据进行预测,比较在不同表型缺失率、性状数、样本量和性状相关性下的插补效果。对拟南芥真实数据的长日照花期、短日照花期、春化长日照花期和春化短日照花期的表型缺失值进行多性状联合插补,并通过全基因组关联分析验证插补数据的可靠性。[结果]模拟研究表明,随着表型缺失率的增大,插补的准确性不断下降;随着性状数和性状相关性增大,插补的准确性不断上升;样本量越大插补效果越稳定。在实际数据分析中,多性状联合插补的效果与模拟试验相似,并通过全基因组关联分析和已验证基因检验了插补数据的可靠性。[结论]表型缺失率、性状数、性状相关性对缺失数据插补效果影响较大,多性状联合插补方法PHENIX、决策树和KNN可以利用性状之间的遗传结构,因此在模拟研究和实际数据分析中更精确、有效。
- 单位