摘要

不同细胞在特定化合物作用下具有不同的扰动信号,基于这些扰动信号预测细胞的活性和挖掘隐藏在表型之下的药物敏感性非常重要。文中开发了一种基于LINCS-L1000扰动信号的SAE-XGBoost细胞活性预测算法。通过对LINCS-L1000、Achilles和CTRP三大数据集匹配和筛选,采用堆栈式深度自动编码器对基因信息进行特征提取,结合RW-XGBoost算法预测药物诱导下的细胞活性,进而在NCI60和CCLE数据集上完成药物敏感性推断。与其他方法相比,该模型取得了良好效果,皮尔逊相关系数为0.85,并进行独立集验证,对应皮尔逊相关系数为0.68。结果表明,所提出的方法有助于发现新型有效的抗癌药物,为精准医疗提供帮助。

全文