为实现特定环境下动态手势更为准确的识别,提出一种桌面环境下的自然人机交互的常见动态手势识别方法,包括"去"、"拿"、"移"、"放"、"回"、"这"等多种自然交互手势。预处理每帧图像,结合高斯建模以及HSV肤色建模分割出手势,融合多帧图像的时序信息及空间信息,构造动态手势时空特征影像,基于卷积神经网络对特征影像进行训练与分类,基于统计分析对分类结果进行优化,实现对不同手势动作良好稳定的识别与分类。实验结果表明,该算法对桌面环境下上述常见动态手势有着良好稳定的识别和分类能力。