摘要
采用催化重整装置的工业原料组成数据训练产品预测决策树回归模型。由于工业数据样本范围比较集中,利用该模型在预测芳烃收率时,会存在过拟合现象,造成其适用性较差,因而借助多元高斯概率分布方法构建重整进料虚拟样本,并利用HYSYS机理模型计算虚拟进料样本对应的芳烃收率数据,改进工业数据常见的小样本问题。结果表明,将虚拟数据与真实数据混合用于决策树回归模型的训练后,模型对检验样本的平均绝对误差由1.409 7降至0.631 8,说明虚拟样本可以用于模型训练,提升了数据驱动模型的适用性。
-
单位中国石油化工股份有限公司石油化工科学研究院