摘要

近年来,由于Transformer能够有效地捕获全局上下文信息,在机器视觉领域展现了巨大的应用潜力。然而,它只能获取单尺度的上下文信息,对于细节信息的提取仍然存在一定的局限性。针对此类问题,提出了RT-Unet算法。该算法在RESwin Transformer模块中引入内在的局部归纳偏置,并在位置嵌入与编码模块使用4个连续的卷积层。将卷积与Transformer有效地组合在一起,既可以获得丰富的多尺度特征,又可以关注局部细节信息与远程依赖关系。另外,改用GELU激活函数增加算法的非线性因素,避免训练时出现梯度消失问题。实验采用Synapse腹部多器官分割数据集,结果表明RT-Unet的性能优于ViT,V-Net, U-Net, Swin-Unet和TU-Net等算法,并取得了DSC为79.08%,HD为23.43 mm的分割结果。