摘要
工业生产过程数据由于主导变量分析代价等因素可能出现有标签样本少而无标签样本多的情况,为提升对无标签样本利用的准确性与充分性,提出一种自训练框架下的三优选半监督回归算法。对无标签样本与有标签样本进行优选,保证两类数据的相似性,以提高无标签样本预测的准确性;利用高斯过程回归方法对所选有标签样本集建模,预测所选无标签样本集,得到伪标签样本集;通过对伪标签样本集置信度进行判断,优选出置信度高的样本用于更新初始样本集;为了进一步提高无标签样本利用的充分性,在自训练框架下,进行多次循环筛选提高无标签样本的利用率。通过对脱丁烷塔过程实际数据的建模仿真,验证了所提方法在较少有标签样本情况下的良好预测性能。
- 单位