摘要
研究场景图像的地理定位问题在室外定位、目标搜寻、军事侦察等领域具有重要意义。针对街景影像与鸟瞰影像之间的交叉视角场景图像匹配与定位问题,本文提出了一种融合可训练局部聚集描述子向量Net VLAD (Net Vector of locally aggregated descriptors)和全连接层的三元神经网络(Triplet Network)定位方法(Tri-Net VLAD)。三元神经网络由三组卷积神经网络CNN (Convolutional Neural Networks)构成,能同时处理3张影像,通过增大不匹配像对间的距离,减小匹配像对间的距离,实现图像检索与匹配;Net VLAD和全连接层的融合可以加强特征间的关联性。本文将CNN提取的局部卷积特征分别通过Net VLAD层和全连接层得到全局描述符与特征向量,并将二者融合,有效地提升了局部特征间的关联性,并保留了不同局部特征之间的差异性,提升了模型的定位精度;改进了DBL loss (Distance-based layer loss),通过加入参数λ增强函数判别困难样本的能力,在提升模型的收敛速度和稳定性的同时也提升了模型的定位精度。在美国Vo and Hays公开数据集上的实验结果表明,Tri-Net VLAD取得了优于MCVPlaces、Triplet e DBL-Net和CVM-Net等现有方法的定位精度,在测试集上的精度高于63%。
- 单位