摘要
针对基于样例的偏标记学习方法 IPAL需对每个样本求取近邻及近邻的权值、耗时太多而不适用于求取大规模数据的问题,提出了一种基于近邻距离加权的偏标记学习算法,对IPAL中近邻权值的求取方式进行改进.为提升新算法的运行效率,在训练集与测试集的读取、相似度图的构建、迭代标记传播和测试样本的预测等方面进行了并行计算;设计了新算法的并行模型,且在MPI的集群环境下实现此模型.将改进后串行算法WIPAL的运行效率和分类准确率与IPAL进行对比,且将不同进程数下并行算法PWIPAL的运行时间和加速比进行对比.试验结果表明:新算法在保证分类准确率的前提下缩短了运行时间;随着数据规模的增大,PWIPAL与WIPAL分类准确率相同,运行时间的加速比逐渐接近所设定的进程数,可以用来处理大规模数据.
- 单位