摘要
英语自动评分系统在信息化时代下得到长足发展,但现有研究成果对于文本特征的分析和提取依然没有很大进展。针对这一问题,提出基于词向量聚类的文本特征提取算法,并借助随机森林模型对作文大赛中8个作文子集进行预测,并与人工评分结果进了加权分析,研究发现:首先,基于词向量聚类的分析可以从单词频率、词汇大小和分布位置3方面表征文本句式的多样性与复杂性;其次,通过模块化的评分思路对英语自动评分系统进行了4层架构设计:契合度特征生成模块、文本特征生成模块、非文本特征生成模块以及学习模型评估模块;最后,将预测成果进行二次加权分析发现,随机森林模型的英语自动评分效果较好,二次加权K值普遍在0.78以上,最高值为0.905,平均值为0.862,各项参数高于通用评分方法10%~18%,基于Bagging方法的随机森林算法在获取了精确的聚类向量特征后,可以在样本数量不够的情况下有效避免过度拟合误差。该研究为人工智能背景下英语作文自动评分方向的研究提供一定参考和借鉴。
-
单位辽宁何氏医学院