摘要

[目的/意义]针对现有数据资源定价标准模糊、交易规则缺失、买卖双方信息不对称的问题,提出基于Stacking多算法融合模型的数据资源定价方法。[方法/过程]首先,基于四分位法及Box-Cox方法对样本数据进行预处理,剔除异常数据的同时调整数据分布,并基于Lasso算法以均方根误差最小为目标完成特征筛选;其次,基于Pearson系数选取最优算法组合,构建基于Stacking集成学习融合多种机器学习算法的数据资源价格预测模型;最后,以国信优易数据平台交易数据为样本进行算例分析。[结果/结论]相较于单算法模型及其他集成算法模型,XGBoost、SVR、KNN、MLP融合模型的预测精度及性能均明显提升;实现了数据资源自身和市场的双向反馈平衡,形成闭环的价值链,为数据资源定价提供参考。