摘要
随着大数据、人工智能以及高性能计算的快速发展,数据驱动的新材料研发成为研究热点.在对材料数据进行数据挖掘的过程中,需要对特征集合进行预处理,通过减少无关冗余特征,不仅可以避免模型过拟合,还能提高模型的可解释性.基于此,提出了一种基于强化学习的特征选择(feature selection based on reinforcement learning,FSRL)算法,将封装式特征选择抽象成机器学习模型和“环境”互动的过程,并根据利益最大化准则将对应特征加入特征子集中.同时,为了提高模型的预测精度,还提出一种基于符号变换的特征构造方法来生成新的特征.最后,将所提出方法应用到非晶合金材料的分类预测任务和铝基复合材料的回归任务中.实验结果表明,FSRL算法的分类准确率最高提升了2.8%,而在回归任务中,基于特征构造的FSRL算法使得预测精度最高提升了22.9%.
-
单位上海大学; 之江实验室