本发明提出了一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法,包括:获取已标注好的N类内窥镜图像;建立基于多尺度特征嵌入和多头交叉注意力的深度学习网络;构建内窥镜图像分类器;利用建立好的分类器实现预测内窥镜图像类别。本发明通过多尺度特征嵌入将深层特征图中丰富的语义信息和浅层特征图中的几何细节信息进行融合,并结合交叉注意力机制消除不同尺度特征图之间的语义信息和几何信息歧义来挖掘出更有效的特征,完成对内窥镜图像的精准分类,从而辅助医生进行诊断阅片,提高阅片效率。