摘要

单细胞ribonucleic acid (RNA) 测序技术被成功用于产生人体组织和器官的高分辨率细胞图谱,这加深了研究者们对人类疾病组织中细胞异质性的理解。细胞注释是单细胞RNA测序数据分析中非常关键的一步,许多典型的方法利用一个有标签的单细胞参考数据集去注释目标数据集,但目标数据集中部分细胞类型可能不在参考数据集中。整合多个参考数据可以更好的覆盖目标数据集中的细胞类型,然而多个参考数据集和目标数据集之间存在因测序技术差异等原因而造成的批次效应。为此,这篇文章提出了一种基于多源域适应的单细胞分类模型,它利用多个已标注细胞类型的参考数据集分别和未标注细胞类型的目标数据集进行对抗训练,实现了批次消除。此外,作者采用虚拟对抗训练,进一步提升模型预测结果对数据点周围局部微小扰动或噪声的鲁棒性,防止过拟合。通过在多个单细胞数据集上比较,这篇文章提出的方法比目前最先进方法的细胞识别精度提升了至少5%。这为新测序的单细胞身份鉴定提供了新的选择和借鉴。

全文