提出一种只对场景中特定类型的运动做出反应的神经网络结构,且模型可以端到端进行训练,因此避免对手工提取特征和预处理操作的强烈依赖,模型由一个三维卷积神经网络组成,接收一个视频帧序列作为输入,通过显著性机制定位主动的手势运动位置,同时,基于Kinetic传感器,构建一个不同参数配置下的多人场景手势数据集。