摘要

针对当前物体6D位姿估计任务准确率较低的问题,提出双目数据集制作方法及物体6D位姿估计网络Binocular-RNN.将YCB-Video Dataset中已有图像作为双目相机左摄像头捕获内容,利用Open GL将YCB-Video Dataset中相应三维物体模型进行导入,输入各物体相关参数,由虚拟双目相机右摄像头捕获合成图片.利用单目预测网络分别对双目数据集中左、右图像的几何特征进行提取.经过循环神经网络对几何特征进行融合,并预测物体6D位姿.以模型点平均距离(ADD)、平均最近点距离(ADDS)、平移误差和角度误差作为评价指标,对Binocular-RNN与其他位姿估计方法进行对比.结果表明,在利用单一物体对网络进行训练时,Binocular-RNN的ADD或ADDS指标得分分别为PoseCNN、GDR-Net的2.66、1.15倍.利用基于物理的实时渲染(Real+PBR)方式训练的Binocular-RNN的性能超过基于深度神经网络的迭代6D姿态匹配的方法 (DeepIM).