摘要
在数据挖掘的整个过程中,EM算法因其数值计算的稳定性、实现上的简单性,可靠的全局收敛性,被广泛应用于处理数据不完整问题。针对EM算法收敛速度慢,算法高度依赖初始值的选择,使用KNN算法的分类结果作为EM算法的初始使用范围,KNN算法根据挖掘目的的不同选择不同的特性,然后利用增量式EM(IEM)算法按E步M步迭代反复求精,快速有效地得出填充缺失数据的最优值;该算法大大加快了收敛速度,加强了聚类的稳定性,数据填充效果显著。
-
单位北京印刷学院