摘要

在工业生产过程中由于数据采集设备多样,采样频率高,各变量之间相互耦合,导致工业大数据维度高、数据间呈现出非线性关系、处理实时性要求高.传统的特征提取方法会降低非线性数据在后续数据挖掘中的精度,同时其数据处理速度无法满足工业大数据的实时性要求.针对该问题,提出一种基于互信息的实时特征提取算法(MIFE);采用改进的互信息作为提取特征的评价准则,以提高非线性数据在后续挖掘中的精度;同时采用自适应的滑动窗口技术以较小代价实现对增量数据的实时处理,将历史数据和动态新增数据结合,实现了整个数据集的快速降维.实验结果表明MIFE算法可以快速地对数据进行特征提取,并在多种分类器上验证了算法的准确率.