摘要
现有研究发现引入LDA (latent Dirichlet allocation)主题模型能够提高对公司财务违规的预测效果.为了进一步探讨主体模型中主题因子预测能力的来源,本文以2008–2019年我国3,397家A股上市公司18,220份年度报告为样本,在以往LDA的基础上加入公司、经理、宏观基本面变量作为主题选择变量,加入违规标签作为情景变量,对年报信息质量进行分析并提取高质量和低质量主题因子.本文基于半监督思想的结构化主题模型(structural topic model)的实证结果表明,基于STM的财务违规预测模型优于基于LDA、词频和财务指标的财务违规预测模型,其错误分类成本降低13%以上.进一步研究发现主题因子的预测能力更多地来源于公司规模、年龄、杠杆、固定资产占比等公司特征,而非反映经理特征的有关变量.本文的预测模型不仅能够预测重大违规事件,也能在精确度较高的前提下给出覆盖率较高的违规公司或安全投资标的.本文的研究在实践上对监管机构监测违规公司和投资者构建安全投资标的池具有重要参考价值.
- 单位