摘要

基于有监督学习的预测模型在预测过程中存在以下缺陷:一是过分依赖训练集中有标签样本的数量,导致分类精度受有标签样本数量多少的制约;二是其预测分类一次完成,导致大量的无标签样本无法用来修正分类器的预测精度,大量数据信息被浪费,从而影响分类性能。针对以上问题,该文提出一种基于AP聚类与Renyi熵融合的自训练半监督相关向量机分类预测模型。该模型通过AP聚类分析与Renyi熵来共同标记无标签样本的标签类别,筛选置信度高的无标签样本扩充原有训练集进行自训练迭代分类,降低噪声数据对分类器预测精度的影响,构造出了性能最优的基于半监督学习的蛋白质相互作用预测模型。通过在M.musculus、H.pylori和H.sapiens蛋白质相互作用数据集上的实验验证,证明了提出的半监督分类预测模型的有效性。