摘要
为了实现没有标准答案及确定主题的数据分析报告的自动评分算法,利用文本分词等技术将数据分析报告处理为结构化数据,量化评分特征利用机器学习模型学习评分过程,找出重要特征变量,从而完成数据分析报告自动评分算法的实现。实验结果表明,使用随机森林的MPE约为3.85,优于3种主要的对比模型,最重要的特征变量是工作变量和描述性变量。没有把人工打分考虑的非语义因素纳入模型,可能导致机器自动评分和人工打分的结果存在差异。利用自然语言处理技术和机器学习模型,在没有标准答案对比及确定主题分析的前提下,实现了数据分析报告的自动评分且评分结果和人工评分结果差异不大。
- 单位