摘要

目的 为了探究Swin Transformer (SwinT)网络较Vision Transformer (ViT)、ConvNeXt网络及VggNet网络在肺结核X线影像的分类方向上的优越性。方法 利用蒙哥马利和深圳医院的肺结核公共数据集形成混合数据集,扩增至3940张,按照60∶20∶20的比例随机生成训练集、验证集和测试集,利用迁移学习加微调(Fine-tune)的模式先训练VggNet16、VggNet19网络作为基准,再分别训练SwinT、ViT以及ConvNeXt的Base网络和Large网络与之比较,采用准确率、混淆矩阵、受试者工作特征曲线、热力图可视化等方式评价各网络的分类效果。结果 SwinT-Large网络分类效果最好,准确率达到98.85%,788例测试集中分别有2例假阴性,7例假阳性,热力图注意力主要集中在肺部,特征提取最为准确。结论 SwinT网络在肺结核影像分类任务中表现出色,可以作为除传统深度学习卷积神经网络外的新方法应用于肺结核影像的辅助诊断,降低肺结核的漏诊率。