摘要
人体行为识别领域的研究方法大多数是从原始视频帧中提取相关特征,这些方法或多或少地引入了多余的背景信息,从而给神经网络带来了较大的噪声.为了解决背景信息干扰、视频帧存在的大量冗余信息、样本分类不均衡及个别类分类难的问题,本文提出一种新的结合目标检测的人体行为识别的算法.首先,在人体行为识别的过程中增加目标检测机制,使神经网络有侧重地学习人体的动作信息;其次,对视频进行分段随机采样,建立跨越整个视频段的长时时域建模;最后,通过改进的神经网络损失函数再进行行为识别.本文方法在常见的人体行为识别数据集UCF101和HMDB51上进行了大量的实验分析,人体行为识别的准确率(仅RGB图像)分别可达96.0%和75.3%,明显高于当今主流人体行为识别算法.
- 单位