摘要

针对复杂场景中的抓取检测问题:如何准确地检测抓取目标,如何从检测出的目标中生成抓取框,提出一种基于语义分割的两阶段抓取检测算法。首先,该算法使用ResNet-101作为骨干网络进行特征提取,提出在不同卷积层模块上使用特征金字塔(Feature Pyramid Network, FPN)连接的方法;然后,在第一阶段使用改进的Faster R-CNN进行抓取检测,在第二阶段使用语义分割预测像素点的分类;最后,利用提出了一种特征融合模块,通过将两个阶段的结果作为输入进行特征融合,用于计算精确的抓取候选框。在Cornell数据集上训练模型,图像划分测试上取得98.2%准确率,能够实时检测对象并生成抓取框。