摘要
随着分布式信息系统的普及与应用,系统的在线运行管理变得尤为重要。如何利用各类系统运行产生的日志数据保障在线业务应用不间断服务已成为当前研究的热点问题,而基于机器学习方法的日志数据异常检测是该领域的有效路径。围绕日志数据的异常检测问题,文中提出一种模糊聚类的无监督学习方法,通过引入模糊隶属度函数,对不同的分类对象赋予不同模糊隶属度,可有效分类噪声与奇异数据点的影响,效果明显优于传统的其他同类机器学习方法。其次,针对日志数据正常与异常数据聚群的不平衡问题,引入不平衡补偿因子,进一步提高异常检测的性能。实验结果表明:模糊聚类算法明显优于现有无监督机器学习方法,准确率达到96%,召回率为100%,综合评价指标F1值为97.9%;改进的算法则在原基础上,准确率和F1分别提升1个百分点。
- 单位