摘要

为了解决真实数据缺少类标签、日志解析错误影响模型性能的问题,设计了基于置信度的半监督异常检测模型SemiCAD。该模型首先基于原始日志数据进行特征提取;其次,通过基于分层密度的带噪声应用空间聚类(HDBSCAN)的正例无标记样本(PU)学习算法,对训练集中无标签的数据进行伪标签估计;最后,使用一致性预测中的统计量p值度量日志数据间的不一致性,选择多个合适的集成算法作为不一致性度量函数计算不一致得分进行协同检测,给出待测日志序列的标签及其标签置信度。在超级计算机(Blue Gene/L)和Hadoop分布式文件系统(HDFS)的日志数据上进行实验,结果表明,相比其他日志异常检测模型,该模型的召回率和F1值等均有所提升,证明该半监督模型在缺少标签的日志中可以有效检测异常。