摘要
文章通过网络爬虫技术从链家网站上爬取与深圳二手房在售房源相关的15个特征变量的数据集,构建基于随机森林算法的预测模型。为提高模型预测精度,首先借助于交叉验证和网格搜索技术对随机森林模型的相关参数进行寻优,并在此基础上对房价进行预测。结果表明,该模型在训练集上的R2为97.5%,在测试集上的R2为87.5%,预测性能较好。进一步通过分析各特征变量对房价的影响程度发现,建筑面积、房屋户型和所在区域对房价的影响较大,而其余特征变量对房价的影响相对较小,该结论的得出可为后续研究奠定基础。
- 单位