基于聚类的标签集成传播算法

作者:王锋; 侯艳伟; 魏巍*; 崔军彪
来源:山西大学学报(自然科学版), 2021, 44(06): 1099-1105.
DOI:10.13451/j.sxu.ns.2021002

摘要

基于图的标签传播算法是半监督学习中的研究热点之一,其性能很大程度依赖于图的质量。为了应对这一问题,文章提出了基于聚类的标签集成传播算法。该算法对样本集进行多次聚类,在每次聚类产生的簇中,利用互补熵度量簇内样本标签的混乱程度,并在混乱程度较小的簇中进行标签传播,当一个未标记样本获得某个标签的次数与聚类次数的比值大于50%时,将该样本标记为这一标签,迭代运行聚类与标签传播,直至所有未标记样本都获得标签。该算法可以在一定程度上缓解基于图的标签传播算法的构图困难引起的问题。在5个UCI数据集上的实验结果表明,与4种经典的基于图的标签传播算法相比,文章提出的算法在分类准确率上提升了1%~9%。

全文