摘要

课堂视频镜头边界检测对教学评价具有重要意义。针对教学视频视觉信息变化不明显、镜头边界信息不足、检测结果不利于教学评价等问题,引入注意力机制,提出了基于视觉和文本特征描述学习的课堂视频镜头边界检测方法。首先,提出了层次视觉Transformer模型学习教学评价关注的屏幕、教师和学生等感兴趣区域的视觉特征。其次,提出了层次文本Transformer模型从屏幕和语音文本中学习教学评价关注的文本特征。最后,构建基于二值交叉熵的镜头分类和边界检测损失函数。在数据集CLShots上的实验结果表明,本文方法在准确率、召回率、F1分数和平均交并比等指标比当前先进的教学镜头检测方法 SBLV分别提高了23.3%、22.4%、22%和35.7%,比通用领域深度学习方法 TransNet V2分别提高了13.8%、14.5%、14.3%和21.3%。

全文