一种基于自训练的众包标记噪声纠正算法

杨艺; 蒋良孝<sup>*</sup>; 李超群

doi:10.16383/j.aas.c210051

摘要

针对众包标记经过标记集成后仍然存在噪声的问题,提出了一种基于自训练的众包标记噪声纠正算法(Selftraining-based label noise correction, STLNC). STLNC整体分为3个阶段:第1阶段利用过滤器将带集成标记的众包数据集分为噪声集和干净集.第2阶段利用加权密度峰值聚类算法构建数据集中低密度实例指向高密度实例的空间结构关系.第3阶段首先根据发现的空间结构关系设计噪声实例选择策略;然后利用在干净集上训练的集成分类器对选择的噪声实例按照设计的实例纠正策略进行纠正,并将纠正后的实例加入到干净集,再重新训练集成分类器;重复实例选择与纠正过程直到噪声集中所有的实例被纠正;最后用最后一轮训练得到的集成分类器对所有实例进行纠正.在仿真标准数据集和真实众包数据集上的实验结果表明STLNC比其他5种最先进的噪声纠正算法在噪声比和模型质量两个度量指标上表现更优.

单位
中国地质大学（武汉）

全文

访问全文

收藏分享被引(1) 浏览

更新时间：2024-03-19 07:09

一种基于自训练的众包标记噪声纠正算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友