摘要

日语文章难度测量研究目的在于利用前沿的机器学习手段解决日语文章难度自动分级任务。现有的日语文章阅读难度测定系统无法有效区分我国本科阶段2-4年级的文章难度。研究选取国内有影响的日语教材31册构建语料库,引入最大依存距离、最末句节的最小指向集中率等文本特征作为难度指标,使用支持向量机技术构建难度分类模型。研究发现,如果将文章分成中级和高级两个级别,模型在训练集和测试集上的平均正确率可达到0.884和0.793。与现有的难度测定系统相比,研究所主张的手法能够有效区分国内日语专业本科阶段中高级教材之间的文章难度。通过决策树算法计算文本难度特征的平均重要度发现,最大依存距离、最末句节的最小指向集中率、句子最大词数、5级词汇占比、6级词汇占比、级外词汇占比对日语文章难度影响较大。

全文