摘要

本文以时间跨度为5年的上市公司财务数据为样本,对样本中369个数据指标缺失比例大于50%做删除处理,并对比11种缺失值填补方法,选择效果较优的随机森林算法对剩余指标进行缺失值填充。针对指标过多,建模出现过拟合情况,尝试使用参数方法、非参数方法、机器学习方法进行指标筛选,最终选出29个指标用于建模。本文针对数据中存在的正负样本比例失衡问题,使用过采样的SOMTE算法解决,并利用LR、DT、XGBoost等机器学习算法进行建立公司财务造假预测模型,并使用Voting和Stacking的融合方法构建融合模型。在测试集上的结果表明,融合后的Voting模型精确率达到98.5%,Stacking模型精确率达到了99.1%,发现融合后的模型具有更好的识别能力,能够更好地识别造假情况的发生。本研究对财务造假的识别,有助于避免投资者在投资过程踩雷,同时可以为政府监管提供意见和建议。

  • 单位
    长春大学

全文