摘要
材料的生产环境和测量条件不同,导致用于机器学习的材料数据的噪声较大.对材料数据进行标注需要一定的专业知识和专业技能,因此标注成本也相对较高.这两方面的因素给机器学习应用于材料领域带来了巨大挑战.为应对这个挑战,提出了一个主动回归学习方法,由离群点检测模块、贪婪采样模块和最小变化采样模块组成.同其他主动学习方法相比,该方法整合了离群点检测机制,选取高质量样本的同时有效地排除了噪声数据的影响,避免了沉没成本.在公开数据集和非公开数据集上与最新的主动回归学习方法进行了对比实验,实验结果表明本文方法在相同的数据量下训练的任务模型性能指标相比于其他模型平均提高15%,且只需30%~40%的数据量作为训练集就可以达到甚至超过使用全部数据训练任务模型的精度.
-
单位上海大学; 之江实验室