摘要

针对在复杂场景下传统算法对运动目标分类精度不高且无法直接输出关键点空间坐标这一问题,提出了一种基于改进Mask Region-CNN的运动目标定位方法。该方法在TensorFlow框架下采用自制数据集预训练提取多尺度的卷积,将采集到的网络视频流通过RoIAlign算法处理获得像素级的特征并匹配尺度不变特征变换特征点建立空间坐标系统,在空间约束下结合卡尔曼滤波补偿运动轨迹,通过投影变换矩阵将像素坐标转换为世界坐标。实验表明该方法提高了模型在干扰背景下的鲁棒性,平均误差在8 cm以内,实现了在复杂场景下可以获得实时高精度的定位信息。