摘要
本发明公开了一种增量式自训练框架及半监督宽度学习分类方法,框架包括初始化阶段,将所有未标记数据通过聚类方法和样本确定性大小形成有序的查询序列表,顺序选择部分数据初始化未标记数据池,同时使用初始标记数据训练基分类器,并标注未标记数据池中的数据;增量自更新阶段,根据选择度量值和设定阈值确定辅助训练数据并将其合并到标记训练数据集形成新的标记训练数据,用于更新基分类器;同时,顺序地从查询序列表中获取一批数据更新未标记数据池并用基分类器预测其新分类伪标签;重复增量自更新阶段,直到未标记数据池为空。本发明框架减少了大量重复运算,节省了资源,同时解决迭代造成的时间消耗问题,使其适用于大规模数据的应用。
- 单位