基于监督式机器学习模型的上海市小尺度湖北钉螺扩散趋势预测研究

作者:公衍峰; 罗卓韦; 冯家鑫; 薛靖波; 郭照宇; 靳艳军; 余晴; 夏尚; 吕山; 许静; 李石柱*
来源:中国血吸虫病防治杂志, 2022, 34(03): 241-251.
DOI:10.16250/j.32.1374.2021247

摘要

目的 采用监督式机器学习模型预测上海市小尺度湖北钉螺扩散趋势,为钉螺精准防控提供依据。方法 利用2016年上海市钉螺调查资料和钉螺分布相关气候、地理、植被、经济社会等数据,构建决策树、随机森林、广义推进模型、支持向量机、朴素贝叶斯、k-近邻和C5.0等7种机器学习模型预测上海市钉螺扩散风险。采用受试者工作特征曲线下面积(area under the curve,AUC)、F1值(F1-scores)和准确率(accuracy,ACC)等指标评价7种模型预测性能,并选择最优模型对上海市钉螺扩散环境因素和风险区进行预测。结果 成功建立了7种可用于预测上海市钉螺扩散风险的机器学习模型,其中随机森林模型(AUC=0.901,F1=0.840,ACC=0.797)和广义推进模型(AUC=0.889,F1=0.869,ACC=0.835)预测效果较好。随机森林模型显示,对上海市钉螺扩散影响较大的气候变量主要包括干燥度(11.87%)、≥0℃年积温(10.19%)、湿润指数(10.18%)和年均降雨量(9.86%);植被变量主要包括第一季度植被指数(8.30%)和第二季度植被指数(7.69%)。气候变量中,干燥度<0.87、≥0℃年积温在5 550~5 675℃、湿润指数> 39%、年均降雨量> 1 180 mm,易发生钉螺扩散;植被因子中,第一季度植被指数> 0.4、第二季度植被指数> 0.6,易发生钉螺扩散。结合水利片区和乡(镇)行政地图,上海市钉螺扩散风险区域主要分布在10个街道(镇),涉及浦南西片区、浦南东片区和太南片区等3个水利片区。结论 监督式机器学习模型可用于预测小尺度范围钉螺扩散风险并可评估导致钉螺扩散的环境因素。上海市钉螺扩散风险区主要分布在松江区西南部地区、金山区西北部地区和青浦区东南部地区。

全文