摘要

随着数据获取工具的快速发展,实际获取到的数据通常是动态更新的,且更新的速度也越来越快.数据集的动态更新通常有三中类型,即数据规模的更新、维数的更新和数据取值的更新.为此,本文针对含有缺失数据的数据集,通过讨论和分析信息熵随数据变化的更新机制,设计了一种基于信息熵的动态特征选择算法.算法中以信息熵的变化作为特征重要度的度量,进而给出了含有缺失数据的数据集中特征选择结果随数据取值变化的动态更新策略.实验结果进一步验证了新算法的可行性和高效性.