摘要

为充分了解县域耕地资源,提高耕地质量评价效率和准确度,减少在评价过程中主观因素的影响,以河南省三门峡市陕州区为研究对象,对其做耕地质量分等定级。根据数据特征将特征变量划分为分类型变量和数值型变量,对于数值型变量采用卡方分箱的方法处理,将处理后的结果与分类型变量用one-hot编码赋值,对于样本类别数较少的数据采用合成少数类过采样技术(SMOTE)平衡样本数据。随后引入机器学习的方法,利用XGBoost、LightGBM、ANN以及XGBoost-LightGBM-ANN组合模型对耕地质量进行分等定级。结果表明,将处理后的未采样数据作为训练集,代入耕地质量评价单一模型以及组合模型进行训练并预测时,准确率、精确率、召回率和F1分数等指标值均达到了0.97以上,其中单一模型ANN、LightGBM、XGBoost对应的各指标值呈递增的趋势,表明机器学习模型应用到耕地质量评价中产生了良好的效果。与未采样相比,经过采样后的数据作为训练集明显提升了模型性能,单一以及组合模型预测中各指标值均达到了0.99以上,其中基于集成学习投票的算法XGBoostLightGBM-ANN组合模型有明显优势,准确率达到了0.998 3。

全文