摘要

针对数据中台在采集数据过程中会产生异常值的问题,提出一种改进GMM算法的数据清洗方法。首先,将边缘计算引入来解决负载过大的问题;其次,为避免EM算法计算参数时陷入局部最优解,通过对GMM算法中的参数进行优化,改善了陷入局部最优解的缺点。实验结果表明,一定的数据量下,改进的GMM算法在召回率、F值等指标上均优于GMM-EM算法。由此可知,改进算法在一定程度上提高了对异常数据的清洗效果,保证数据的可靠性。

全文