摘要

目的 本研究借鉴深度森林(deep forest)的思想,提出一种基于树的集成学习方法新思路,为以后相关的研究提供分析策略和思路。方法 使用2015年中国健康与养老追踪调查数据库,筛选与消化系统疾病有关的变量,通过“人工地”建立多层随机森林模型,对人群进行分类,再分别建立模型筛选变量,通过计算评价指标评价模型效果,从而选择更优的模型解释与消化系统疾病相关的变量。结果 本研究发现通过建立多层随机森林模型对人群分为两类后,再分别建立模型,各评价指标都有很大幅度提高。另外对两类人群分别构建随机森林模型后,根据变量重要性评分筛选出与消化系统疾病有关的重要变量,再建立logistic模型,结果显示,一类人群筛选出15个有统计学意义的变量,其中有13个危险因素,OR值由1.871至35.917,关联最强的是关节炎和风湿病,其次为肾脏疾病、过去一个月生过病、头痛或者颈部痛、胸背部或者腰臀部疼痛、心脏病等;2个保护因素为晚上的睡眠时间、血红蛋白值。另一类人群筛选出的相关变量与第一类人群大部分相同,但作用相反,OR值由0.067至0.771,并且对第一类人群危害最大的因素对第二类保护也最大。结论 对于病因复杂的疾病,可通过对人群细分,再分别进行分析。本研究提出的基于树的集成学习新算法,通过叠加多层随机森林模型,可用于以上数据中进行人群分类,使模型更优。