摘要
针对城市排水管道堵塞检测识别过程中有标签的样本数量较少,人工标注管道数据样本成本高昂,以及管道堵塞数据集中存在明显的类别不均衡问题,提出基于主动学习的方法以解决上述问题。同时,将极限随机树作为基分类器,对未标注样本集进行分类识别;样本查询策略选择将分类熵和余弦相似度相结合的样本采样策略。该方法使得模型在主动学习的过程中能够提高对少数类样本的关注度。试验结果在两个不同不均衡程度的数据集上进行验证,结果表明:笔者提出的主动学习模型在两个试验数据集上对少数类的分类识别效果都取得了较高的F1度量值,模型的分类稳定性并没有受到数据不均衡程度变化的干扰。
-
单位自动化学院; 昆明理工大学