摘要

为了解决视频人体行为识别中网络难以训练、直接将卷积神经网络全连接层的输出送入循环神经网络而导致空间信息缺失,进而引起视频人体行为识别精度不高、难以训练等问题。本文提出基于神经网络和迁移学习的视频人体行为识别方法,该方法以resnet50为基础网络,将在imagenet数据集上训练好的权重参数用于初始化所有的卷积层,使用卷积长短期记忆神经网络对resnet50的输出做处理,得到具有空间信息的视频描述信息,使用注意力机制对视频信息进行处理得到视频关键信息,最后利用长短期记忆网络对视频关键信息做时间序列建模。该方法在人体行为通用数据集ucf101上到达94.77%。经实验证明,该方法可以实现端到端的视频人体行为识别,识别精度可以和现有的方法媲美,并有训练时长短,网络结构简单等特点。