摘要

深度自注意力网络(Transformer)对输入信息全局特征和长距离相关性具有天然良好的建模能力,其与卷积神经网络(CNN)的归纳偏置特性具有较强互补性。受其在自然语言处理领域取得巨大成功的启发,Transformer已被广泛引入到计算机视觉各项任务特别是医学图像分析领域并已取得了不俗表现。对Transformer与自然图像结合的典型工作进行介绍,根据视觉Transformer在医学图像分割、医学图像分类以及医学图像配准等子领域对相关工作按照不同病灶及部位进行了整理和归纳,重点对一些代表性研究工作的实现思想进行了详细分析。对现有研究工作进行了讨论并对未来方向进行了展望,以期为该领域的进一步深入研究提供参考。