摘要
本文运用文本挖掘技术,对2008-2018年1297家上市公司年报的管理层讨论与分析(MD&A)进行文本分析。从文本质量特征、文本词汇特征和文本语调特征等角度量化计算文本相似度、文本情感值、文本可读性三个维度文本披露指标,采用Logistic模型、决策树模型、支持向量机和神经网络模型四种方法构建上市公司信用风险预警模型,实证检验加入MD&A文本信息披露指标后信用风险预警模型的预测能力。实证结果表明:(1)在加入文本信息披露指标后,信用风险预警模型的预测准确度得到显著提升,多维度文本信息披露指标比单维度文本信息披露指标对信用风险预警模型预测准确度提升效果更优;(2)Logistic回归模型的预测准确度在样本数量较低时要优于决策树、支持向量机与神经网络,随着样本数量的增加,支持向量机和神经网络的预测准确度会明显提升;(3)不同特征的文本信息内容与企业是否发生信用风险均显著相关。本文的研究内容和结论为提高信用风险预警的预测准确性提供了方法和经验证据,对于投资者与相关学者研究市场有效性提供新的研究视角。
- 单位