本文基于互动能力理论框架和前期研究成果开发了配对口语测试评分量表,并采用多层面Rasch模型对该量表进行了效度验证。研究结果发现,总评分量表与互动能力子评分量表均可以有效地区分不同口语能力和互动能力的考生;评分员的松紧度存在显著差异,但评分员内部一致性和稳定性均在可接受范围内;总评分量表和互动能力子量表中各维度之间的难度存在显著差异,但总体评分结果与模型拟合比较理想,评分结果可靠。因此,本研究所开发的配对口语测试评分量表可以作为可靠、有效的工具衡量不同能力的考生。