摘要

收集了200个抗癌药和10 940个非抗癌药,采用加权和欠采样方法,获得了均衡数据集。为了从众多结构指纹或者描述符中找出简短且对抗癌药物筛选贡献最大的描述符组合,采用了两种相关性特征选择方法去简化指纹或者描述符,并结合决策树筛选抗癌药物。筛选得到了3类各10个可以最有效识别抗癌药物的结构描述符组合,其中特征筛选后的10位MACC指纹最优,可以筛选出81%的抗癌药物,说明这两种相关性特征选择方法有效地提升了抗癌药物的筛选效果。

全文