摘要

动作识别方法能分辨人的运动类型和意图,对行人的实时安全监测有着重要作用。为了解决基于深度学习的动作识别模型的数据缺乏问题,提出一种带有隐状态初始化的人体运动合成方法。常用的人体运动合成方法利用循环神经网络(RNN),将若干帧运动数据作为输入,自动生成后续的运动序列。在以前的工作中,通常将RNN的初始隐状态设置为零或随机初始化隐状态,导致运动输入末帧和运动合成首帧之间存在跳变,影响生成运动的质量。为了解决这个问题,提出了一种估计初始隐状态估计的方法,将初始隐状态作为自变量,利用神经网络的目标函数作为优化目标,使用梯度下降的方法进行优化求解,得到一个合适的初始隐状态。所提的带有初始隐状态估计的运动模型比ERD(Encoder-Recurrent-Decoder)模型和RGRU(Residual Gate Recurrent Unit)模型在首帧的预测误差分别减小了63.51%和6.90%,10帧的总误差分别减小了50.00%和4.89%。实验结果表明:所提带有初始隐状态估计的运动模型无论是运动合成质量还是运动预测精度都要好于不进行初始隐状态估计的方法;所提方法通过准确地估计RNN人体运动模型的首帧隐状态,提升了运动合成的质量,能够为实时安全监测中的动作识别模型提供可靠的数据支持。