胸部X线影像和诊断报告的双塔跨模态检索

作者:张嘉诚; 欧卫华*; 陈英杰; 张文川; 熊嘉豪
来源:计算机应用研究, 2023, 40(08): 2543-2548.
DOI:10.19734/j.issn.1001-3695.2022.12.0786

摘要

针对现有胸部X线影像和诊断报告跨模态方法重点聚焦于全局信息对齐,忽视了影像和诊断报告间的细粒度语义关联,导致检索精度低、匹配度差的问题,提出全局和局部联合对齐的胸部X线影像和诊断报告双塔跨模态检索方法(CDTCR)。具体来说,针对细粒度语义表征,提出由残差网络组成的影像编码器学习影像的细粒度特征和由Transformer构成的BERT模型学习诊断报告的细粒度语义特征;针对细粒度语义关联问题,设计影像对句子和区域对词组两个不同粒度的模态间信息对齐策略,解决了不同模态间细粒度语义关联不足的问题。大型医学数据集MIMIC-CXR上的实验结果表明,CDTCR比现有的跨模态检索方法,检索精度更高、可解释性更强。

全文