摘要

山地丘陵区地形复杂,地表辐射信号畸变严重,地物识别困难。为准确提取山区地物信息,结合多源异构数据,Stacking集成学习和shapley addictive explanation(SHAP)方法展开土地覆被分类研究。从Sentinel-1/2影像、气候数据、土壤数据和数字高程图中提取遥感、气候、土壤和地形四类特征变量,设计多种变量组合方案,结合Stacking算法,探讨不同类型变量在山区地物识别中的效用,并对比Stacking最佳方案与支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)和极端梯度回归(eXtreme Gradient Boosting,XGBoost)算法的分类精度,评价Stacking方法在山区地物信息提取中的性能。同时,引入SHAP方法,量化Stacking模型中各特征变量的重要性。结果表明:在仅以遥感变量为基础方案时,山区土地覆被分类精度最低;在分别加入气候、土壤和地形变量后,总体精度、Kappa系数和F1分数均有所提高,其中旱地、水田和园地分类精度的提升幅度较大。基于Stacking算法结合所有类型特征变量的方案达到了最佳的分类精度,其总体精度、Kappa系数和F1分数分别为96.61%、0.96和94.81%,分类精度优于相同特征下的SVM、RF和XGBoost。SHAP方法可量化Stacking模型中特征变量的全局以及局部重要性,明确各变量对不同地物类型识别的相对贡献,为山区土地覆被分类的变量选择及优化提供有价值的信息。该研究可为机器学习协助复杂景观地区土地覆被制图研究提供技术支持和理论参考。