摘要
综合考虑标记内和标记间的聚类结果对多目标学习径向基神经网络算法(RBF Neural Networks for Multi-Label Learning,ML-RBF)的影响,提出CL-RBF算法并应用到蛋白质亚细胞多点定位预测中。通过引入轮廓系数(Silhouette Coefficient)对ML-RBF隐层中心的个数进行优化,并通过分析标记间聚类结果的关系,对小于某一阈值的标记间的聚类中心重新聚类,使用梯度下降算法进行参数调整,最后依据测试样本与标记L的隐层中心和不属于标记L的样本生成的聚类中心的欧式距离差调整预测结果。在10折交叉验证下,采用词袋模型(Bag of Words)和氨基酸组成法(Amino acid composition,AAC)结合的方式提取特征向量,选取另外4种多目标学习算法作对比实验,根据不同评价指标的结果,得出CL-RBF算法在4个多标记数据集上的综合性能最优的结论。本研究预测算法通过网站https://njau.applinzi.com/homepagefinal.jsp实现。
- 单位