摘要
提出一种基于内存计算引擎(Spark)日志集成与模糊c均值聚类-全连接神经网络(FCM-DNN)的流量分析算法.首先,使用Spark集成会话日志来获取可分析的结构化数据;然后,对同一网站的行为数据进行聚类,提取网站的多类簇特征集合,以解决单个会话连接特征维度较少、特征相似且不平衡的问题;最后,构建全连接神经网络(DNN),将统一化后的聚类特征与原始特征结合并进行训练,从聚类分组长度和损失函数等多个方面进行算法优化.仿真实验结果表明,对于特征较少的会话日志数据,该算法可有效提高网站分类的准确性.同时,在保留学生上网特征的前提下,将日志压缩约7 000倍,从而节省存储开销.
- 单位