摘要

有效识别贷款申请欺诈倾向是维护借贷双方利益的首要前提,是金融借贷市场一直以来关注的重点。随着文本挖掘技术的发展,贷款申请人提供的贷款描述,使其传达的信息受到更多关注。研究中利用贷款描述文本对欺诈行为进行识别,有助于拓宽非结构化文本数据在金融市场日常交易中的应用。利用深度学习模型Transformer对文本信息进行提取,再用自动编码器对文本信息进一步抽取,最终得到文本信息测度。基于17个指标构建基准机器学习模型,进一步加入文本信息测度作为新的预测变量。样本外预测结果显示,文本信息测度有助于提升模型拟合效果,在不同模型中提升精度介于0.68%-1.42%之间,表明结果具有稳健性;特征重要性结果也表明,文本信息测度在模型预测结果的贡献度中位于前4。验证了文本信息在欺诈识别中的作用。