摘要

随着网络的普及,网络上产生了越来越多的数据,但是在实际生产的时候,会发现这些数据大部分都不会被打上标签;而要进行数据挖掘的任务,监督型学习算法要求有足够的标签才能进行训练。针对样本缺少标签的问题,提出并实现了正样本-无标签样本学习的方法。第一种方法首先对没有标签的样本进行评估,用评估值将样本打上标签,然后利用这些标签训练出一个模型。第二种方法通过对样本权重的把控,达到利用大量数据中信息的目的。实验结果表明,这两种方法的效果与之前的方法相似甚至能超过之前的算法,而且实现起来更加简单。

  • 单位
    同济大学; 嵌入式系统与服务计算教育部重点实验室