摘要
目的评估不同基因表达谱数据集下,多种算法在缺失数据中的填补效果,并分析其对无监督基因表达谱聚类的影响。方法在不同缺失比例的情况下,分别采用非参缺失森林填补法、贝叶斯线性回归法、蒙特卡洛多重填补法和K邻近填补法进行填补,通过均方根误差(NRMSE)和聚类准确率(F值)两个指标来评估不同方法的填补效能和聚类效果,并用模拟数据集进行测试和乳腺癌数据集进行验证。结果随着缺失比例的增加,四种填补方法的NRMSE都逐渐上升;任意缺失比例下,相比于其他三种方法非参缺失森林填补法的填补优势明显。缺失比例为5%、10%、20%和30%的乳腺癌数据集,非参缺失森林填补法的NRMSE依次为0.1951(95%CI,0.19450.1953)、0.2776(95%CI,0.27832791)、0.4003(95%CI,0.39860.4002)和0.4974(95%CI,0.46580.5104);聚类效果的准确率为1.0、0.91、0.88和0.82。结论非参缺失森林填补算法实现简单,对数据集的要求较低,比传统填补算法具有更好的稳定性和精确度,可保留较多的基因信息供后续的功能聚类等分析。
-
单位第三军医大学