摘要

该论文将深度学习中目标检测技术结合教室实际场景,对录播课堂中教师以及学生进行行为检测识别,方便后续结合教学模型了解课堂质量。实验融合了Libra R-CNN中的平衡金字塔结构与GA-RPN中的指导生成锚框,在锚框与目标框的回归时均使用平衡L1损失函数以降低相似背景等噪声数据的梯度影响,使得模型对复杂场景有更好的检测效果。根据教师场景与学生场景的不同特征,通过对比主流检测框架在各自场景下的检测效果,综合其检测速度,得出针对教师这种较为单一场景,使用ResNet50作为主干网络的SSD检测模型在保证精准度的同时速度最快;针对学生听课场景,使用该实验设计的GaB R-CNN+ResNeXt101检测效果最好,AP达到了80.9%。