摘要
针对图像分类中的三维物体分类任务,提出了融合图像特征和位置向量的多角度注意分类模型(multi-view vision transformer,MLVIT)。通过在多个角度架设相机获取三维物体的多角度视图,然后根据图像特征编码模块获得图像特征向量,再根据位置特征编码模块获得位置特征向量,将图像特征向量与位置特征向量进行显示融合并且输入到多头自注意模型中,最后采用Adam算法训练模型参数,并在玉米粒瑕疵分类数据集上进行评测,结果表明该方案优于传统的多视图卷积网络结果。
-
单位山东信息职业技术学院