摘要
为了提高蛋白质与金属离子的交互位点(PMIIS)预测的准确率,从解决数据分布不平衡问题出发,提出了1种结合下采样与上采样方法的类不平衡学习算法。同时对多数类样本与少数类样本进行采样,在补充少数类样本信息的同时,减少多数类样本的冗余信息。基于该文类不平衡学习算法与支持向量机(SVM),设计了1种基于序列信息的预测方法。为了客观评价PMIIS的预测性能,构建了领域内较为完备的、含有蛋白质与Zn2+、Ca2+与Fe3+交互位点的标准数据集。在此数据集上的实验结果表明,该文预测方法在蛋白质与Zn2+、Ca2+与Fe3+交互位点预测问题上的平均马氏相关系数(MCC)为0.646,优于TargetS与IonCom。
- 单位