摘要

教学语料设计是口译教学的重要组成部分。学界对口译教材建设的现状和语料难度影响因素有一定的研究,但影响难度的变量众多且关系复杂,难度划分主要依赖于专家经验,缺乏统一、可靠的分级标准。从机器学习的角度看,教学语料的难度分级可视为一个分类问题。本文使用RoBERTa预训练模型构建神经网络系统,通过对286段语料进行人工标注再使用数据增强和知识蒸馏技术扩充数据集的方法,开发了一套基于机器学习的教学语料难度自动分级系统。该系统可以根据输入的源语语料自动输出其难度分级结果,帮助教师和学习者更好地开展课堂教学和自主学习。