摘要
中文信息作为数据要素的重要组成部分,在智能财务风险识别中发挥着积极作用。鉴于此,基于词频统计技术构建了用以衡量文本情感基调与语气倾向的指标体系,通过对2012—2019年中国上市公司年报中管理层讨论与分析(MD&A)所披露的信息进行度量,实现了中文文本信息的量化;进一步,在对结构化文本数据和财务数据进行融合的基础上提出了基于机器学习的智能财务风险识别系统。实验结果显示,相对于仅使用单一财务数据而言,文本信息的融入能够有效识别上市公司财务风险;基于树的机器学习模型和集成学习模型的识别性能显著优于基准模型,其中RF与GBDT模型的识别效果最好。将中文信息引入智能财务风险识别,不仅有利于提高识别性能,而且有助于挖掘社会数据资源价值,为我国的数据要素市场建设以及人工智能战略的实施提供参考。
- 单位