摘要

汉语二语文本难度自动分级任务是国际中文教育与计算语言学领域中的一个重要主题。本文依据《国际中文教育中文水平等级标准》,提出了基于语法点多样性与复杂性的25个语法点特征并实现了相关特征的自动抽取与计算,在此基础上构建了自动分级模型。实验结果表明,融合语法点特征后多元逻辑回归算法的分级准确率为86.40%,比基于现有语言特征的实验提升了2.4%。进一步研究发现,六级语法点多样性、语法点难度等级均值是区别文章难度级别的关键特征。此外,本文将包含语法点特征在内的207项语言特征融入基于BERT的深度学习模型,取得了87.6%的准确率,超过了基于传统语言特征的方法和基于神经网络的方法。

  • 单位
    北京语言大学

全文