摘要

为解决多人场景下单目视觉行为检测难度大的问题,通过将单目视觉提取的多种特征集融合提出了一种新的行为检测模型。该模型通过深度卷积神经网络(Convolutional Neural Network, CNN)提取区域候选集,经过池化层获得单目视觉的感兴趣目标集;搜索决定人体姿势的25个骨架关键点,提取各个点的位置坐标向量。将2种特征融合传入CNN预测单目视觉的行为标签。实验结果表明,所提模型获得了较高的单目视觉行为检测精度,对多人场景的检测性能也优于其他对比模型。

  • 单位
    河南财经政法大学; 现代教育技术中心