多示例学习的自适应密度分布挖掘与三视角嵌入集成

作者:陈天霖; 杨梅*; 闵帆; 方宇
来源:昆明理工大学学报(自然科学版), 2023, 48(06): 54-65.
DOI:10.16112/j.cnki.53-1223/n.2023.06.333

摘要

多示例学习(Multi-Instance Learning, MIL)的处理对象是包含若干示例的包,包有标签而示例通常没有标签.MIL的主要任务是学习已有包的特征信息以训练分类器.基于嵌入的MIL方法的主要策略是选择代表样本,将包嵌入到新的特征空间.然而,现有的大多数算法通常难以适应多样的数据分布,且单视角的嵌入可能导致向量在新特征空间中的特征值较弱.本文提出了多示例学习的自适应密度分布挖掘与三视角嵌入集成算法,包含3个关键技术:(1)自适应密度分布示例选择技术用于挖掘负示例空间的密度分布特征,将密度较大且相连的核心示例聚类成任意形状的簇,从而获得负代表示例集合;再根据正负示例间相似性最小化原则获得正代表示例集合.(2)三视角嵌入技术用于挖掘包的正、负和整体特征信息,并将包转为三个视角下的单向量.(3)集成技术分别基于三个视角下的向量训练3个单示例分类器,并通过硬投票集成这些分类器,从而获得最终MIL模型.在实验中,我们使用了来自4个领域的30个数据集,并与7个前沿MIL算法进行对比.结果表明ADTE算法在数据集上的平均准确性高于其它对比算法,尤其在文本分类和网页推荐数据集上取得了较好的效果.

全文