摘要

不同患者对同一抗癌药物的反应可能不同,了解患者之间对抗癌药物的反应差异对癌症精准医疗具有重大参考价值. 高通量测序数据为构建抗癌药物反应分类预测模型提供了强大的数据支撑. 针对两大经典数据集癌症细胞百科全书(CCLE)和癌症药物敏感性基因组学数据集(GDSC),本文提出了基于最大相关最小冗余(mRMR)算法和支持向量机(SVM)的计算模型mRMR-SVM. 利用基因表达数据,通过方差排序和mRMR算法提取特征基因,借助SVM实现抗癌药物对细胞系的“敏感—抑制”二分类预测. 实验结果显示:对于CCLE中的22种药物,mRMR-SVM的平均准确率为0.904;对于GDSC中的11种药物,平均准确率为0.851. mRMR-SVM不仅在预测性能方面优于传统的支持向量机、随机森林、深度反应森林、深度神经网络和细胞系-药物复杂网络模型,而且具有良好的泛化能力,对于三种特定组织的抗癌药物反应分类预测也取得了令人满意的结果. 此外,mRMR-SVM可以识别与癌症发生发展密切相关的生物标志物.