摘要

文本难度分级是自然语言处理在教育领域的一个基础性研究课题,用于自动判定一篇文章的阅读难度。该文基于深度神经网络模型对汉语文本阅读难度进行了探索,提出了一种CNN+LSTM的难度分级模型,并结合分级语料的特点采用了变长卷积层和块结构。在教材测试集和人工构建的测试集上进行了详细的实验分析,该文的神经网络模型超越了传统机器学习方法和主流神经网络方法,在根据学段划分的5级数据上分级系统的正确率达到了75.4%。