摘要

【目的】实现文本阅读难度自动分级。【方法】采用基于多元特征的机器学习方法实现对文本难度的分析和判别,包括词频特征、结构特征、主题特征、深度特征等。这些特征从不同角度对文本的内容进行描述。在此基础上,对这些多元特征进行融合,并在多种分类器上进行文本阅读难度自动分级实验。【结果】利用本文提出的方法在面向中学英语考试的阅读理解文本上进行实验,最终在测试集上的正确率达到0.88,性能相较传统的阅读分级方法有较大提升。【局限】由于人工标注的高成本,目前的阅读难度数据集在数量、规模、难度标注程度上都有相应的限制。这在一定程度上影响了本文方法的应用。【结论】本文提出的多元特征提升了机器对阅读文本的分析和理解能力,使机器能够在理解文本内容的基础上对文本的阅读难度进行自动评级。