摘要
目的·根据粪便样本宏基因组学数据建立肠道菌群标签,探索用于筛查与诊断大肠癌的非侵入性方法。方法·共纳入285例样本,根据随机森林分类算法筛选出与大肠癌发生密切相关的特征细菌;利用6种机器学习分类模型建立大肠癌的诊断模型,并进行内部和外部验证。结果·首先筛选出了9种与大肠癌发生密切相关的特征细菌,利用这9种细菌建立了6种诊断模型。其中随机森林模型准确率最高(达0.847 7),其在内部验证集和外部验证集中的准确率分别为0.815 8和0.734 4,在全集中受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)为0.894。结论·根据粪便样本的宏基因组学数据,利用随机森林算法建立了由9种细菌组成的诊断大肠癌的菌群标签,能够有效对健康者与大肠癌患者进行区分。
-
单位消化疾病研究所; 上海交通大学医学院附属仁济医院