摘要

针对许多多示例算法都对正包中的示例情况做出假设的问题,提出了结合模糊聚类的多示例集成算法(ISFC)。首先,结合模糊聚类和多示例学习中负包的特点,提出了“正得分”的概念,用于衡量示例标签为正的可能性,降低了多示例学习中示例标签的歧义性;然后,考虑到多示例学习中将负示例分类错误的代价更大,设计了一种包的代表示例选择策略,选出的代表示例作为基分类器的训练子集;最后,结合各基分类器的结果,确定包的最终标签。ISFC算法对正包中正示例的比例未做任何假设,同时能够解决正包数量多、负包数量少情况下的类别不平衡问题。实验结果表明,ISFC在药物分子活性预测、图像分类、文本分类任务上都取得了较好的分类效果。