为验证大学英语四级口语考试自动评分系统的有效性,采用基于论证的评分效度论证框架,聚焦评估、概化和解释3个推论,通过人机评分的对比分析及专家对各等级考生的典型口语特征描述,论证该评分系统的效度。研究表明,人机评分具有较好的相关性和等级一致性,但机评分数的离散度略低于人工评分;机评对不同的语言特征敏感度不同,对语言准确性以及内容的相关性和丰富度特征比较敏感,对语音、策略等区分能力较差。对自动评分系统的效度论证还需在其他维度持续开展研究。