摘要
针对视频图像中运动目标位置和大小变化频繁的特点,通过改进网络结构和训练过程,搭建了基于YOLOv1的神经网络框架。该框架采用ResNet50进行特征提取,增加卷积层和全连接层优化对不同尺度特征信息的传递,通过Sigmoid层和BN层在稳定输出结果的同时,加快训练速度。PASCAL VOC2007数据集和实景视频数据的实验表明,相比原始YOLOv1,本文方法的FPS和mAP分别提高了4.44%和4.57%,满足视频图像运动目标检测的实时性和精度要求。
-
单位天津职业技术师范大学; 电子工程学院