摘要

非靶向代谢组学数据预处理的关键步骤之一为峰检测(Peak picking),在高分辨质谱的峰检测过程中应用最广泛的算法为基于连续小波变换的centWave算法。本研究通过代谢物标准品和尿液两个数据集,结合优良峰形色谱峰比例、可信色谱峰比例和可重复色谱峰比例3个评价指标对IPO(Isotopologue parameters optimization)和centWave Sweep两种centWave参数优化算法进行了全面比较。为了快速准确地对色谱峰形优劣进行区分,本研究比较了随机森林(Random forest)、自适应提升(Adaboost)和梯度提升树(Gradient boosting decision tree) 3种集成学习算法在区分色谱峰形优劣方面的性能。根据准确度和衡量二分类模型精确度的F1分数,选择随机森林建立区分模型(准确度93.5%, F1分数 0.938)。研究结果表明,相比于XCMS Online的推荐参数,采用IPO和centWave Sweep进行参数优化后,不同数据集的可信色谱峰比例和可重复色谱峰比例均得到了提高,取得了较好的优化效果;但是,对于不同数据集的优良峰形色谱峰比例,与推荐参数相比并无明显差异,并且得到的优良峰形色谱峰比例均较低,表明现有的参数优化算法并不能使优良峰形色谱峰比例得到提升。过多的不良峰形色谱峰可能会导致下游的统计分析降低检验效能,或由于潜在特征峰无法准确积分而产生假阳性结果,提示在代谢组学研究中需要对得到的潜在生物标志物进一步确认。

全文