摘要
近年来,图自监督学习方法被应用于疾病诊断任务中以缓解医疗标签信息缺乏和人工标注问题。然而,图自监督学习的性能主要依赖于高质量的正样本和负样本,这限制了疾病诊断的灵活性和泛用性。此外,在构建医疗异构属性图时没有充分利用病人的多模态数据,这影响了疾病诊断的性能。因此,提出一个基于医疗异构属性图结构聚类的自监督学习疾病诊断框架SC4DD(self-supervised learning based on structural clustering of medical attributed heterogeneous graph for disease diagnosis)。该框架利用病人的结构化数据和非结构化临床文本摘要构建医疗异构属性图,通过图上的结构聚类算法生成节点的伪标签。考虑到不同元路径对学习病人嵌入表示的重要性不同和不同模态医疗数据对诊病诊断结果的影响程度不同,引入注意力机制的异构图神经网络作为编码器,伪标签作为自监督信号辅助编码器学习注意力系数和病人嵌入表示。在MIMIC-III数据集上的实验结果表明,SC4DD优于其它基线方法,能够有效提高疾病诊断的性能。其中,相较于性能最优的基线方法HeCo,SC4DD在不同标记节点所占百分比下的Macro-F1分别提高了1.46%、0.97%、0.94%,Micro-F1分别提高了0.91%,0.84%,0.52%。
- 单位