摘要
针对大数据管理与应用中数据缺失的问题,提出一种基于优化决策树和EM的缺失数据填充算法对多属性缺失数值型数据进行填充。为解决决策树过分拟合问题,该算法采用基于精英策略的自适应遗传算法优化后的决策树对数据进行分类,再结合EM算法实现数值型数据的填充。仿真结果表明:对比优化前的决策树算法,优化后的决策树分类精度更高,平均填充耗时更少。
- 单位
针对大数据管理与应用中数据缺失的问题,提出一种基于优化决策树和EM的缺失数据填充算法对多属性缺失数值型数据进行填充。为解决决策树过分拟合问题,该算法采用基于精英策略的自适应遗传算法优化后的决策树对数据进行分类,再结合EM算法实现数值型数据的填充。仿真结果表明:对比优化前的决策树算法,优化后的决策树分类精度更高,平均填充耗时更少。