摘要

基于不同的机器学习方法探索识别抗肿瘤药的合适的特征筛选方法。收集了200个抗肿瘤药和600个非抗肿瘤药,形成三组不同的平衡数据集。采用斯皮尔曼系数与谷本系数计算的相关性矩阵与6个特征重要性指标结合进行相关性特征筛选。筛选后的数据集使用自适应提升树、随机森林、支持向量机进行分类。基于三个平衡数据集,采用的特征筛选方法对不同的机器学习方法获得的评价指标均有不同程度的提升。特别是自适应提升树,与其他筛选操作相比,至少有一种改进的特征筛选方法提升了六个评价指标的所得值。根据三个数据集的结果分析,重要性指标中整体方差和信息熵表现得更好,为将来的抗肿瘤药物识别提供一定的参考。