摘要

目的通过机器学习识别肝母细胞瘤(hepatoblastoma, HB)的核心驱动基因, 并探讨HB免疫细胞浸润特征及与核心驱动基因关系。方法从基因表达合成数据库(gene expression omnibus, GEO)中下载3套数据集(GSE75271、GSE131329和GSE81928), 通过最小绝对收缩和选择操作符(least absolute shrinkage and selection operator, LASSO)和支持向量机(support vector machine, SVM)-回归特征消除(recursive feature elimination, RFE)算法识别核心驱动基因。在验证集中, 对核心驱动基因进行表达和诊断验证。使用CIBERSORT算法评估HB组织的免疫细胞浸润特征, 并评估免疫细胞浸润与核心驱动基因之间相关性。采用实时聚合酶链反应(real-time polymerase chain reaction, RTPCR)和蛋白免疫印迹对3对HB组织和肝正常组织样本进行核心驱动基因验证。结果 LASSO回归及SVM-RFE算法识别5个核心驱动基因:RDH16、EPCAM、CYP1A2、MGLL和SLC27A5。测试集中, HB组织样本RDH16、CYP1A2、MGLL和SLC27A5表达量低于肝正常组织样本(P<0.05), EPCAM高于肝正常组织样本(P<0.05), RDH16、EPCAM、CYP1A2、MGLL和SLC27A5在诊断HB的受试者工作特征曲线下面积分别为0.992, 0.990, 0.980, 0.993, 0.987。验证集中的结果与测试集结果一致。PCR结果显示, HB组织样本RDH16、CYP1A2、MGLL和SLC27A5表达量低于肝正常组织样本(P<0.05), EPCAM高于肝正常组织样本(P<0.05);蛋白免疫印迹结果与PCR结果一致。免疫细胞浸润分析显示5个核心驱动基因表达与活化肥大细胞、中性白细胞、T细胞CD8等免疫细胞绝对含量相关。结论 RDH16、EPCAM、CYP1A2、MGLL和SLC27A5是HB核心驱动基因, 免疫细胞浸润之间交互作用表明这些核心驱动基因可能成为未来治疗HB的一个潜在靶点。