本研究以上海交通大学英语水平考试的汉译英试题为例,探讨了AI自动评分原理与机制,并基于大规模考试数据验证其评分效度。研究发现,AI自动评分结果与人工评分相关系数可达0.76,两种评分结果的均值无显著性差异,但在高分段和低分段人工评分的质量更高。本研究还对AI自动评分在大规模考试中应用的可行性以及目前存在的若干问题进行了探讨。