摘要

数字时代的来临使利用机器学习识别财务舞弊成为研究的热点。在采用原始财务数据的基础上,引入财务比率、公司治理指标、审计指标和我国资本市场特殊指标,并以Logistic模型为评价基准,分别运用决策树、随机森林、Adaboost决策树和支持向量机(SVM)模型进行机器学习分析,并利用采样的方式降低样本不平衡性,以召回率(recall)为评价各模型的标准,综合运用准确率(accuracy)、召回率和AUC判断模型和数据的优劣。研究发现:加入财务比率、审计指标和我国资本市场特殊要素指标的模型能够得到较优的识别效果,而公司治理指标并不能提高模型的舞弊识别能力;与其他模型相比,随机森林模型和Adaboost-决策树模型具有更好的舞弊识别效果。