摘要

针对油田局域网络环境中,传统基于流量的分析方法无法实现应用系统的有效识别问题,本文设计一种面向不平衡数据集的应用系统识别框架WEBCLA,该框架采用基于基尼增益的SMOTE改进算法(GSMOTE)与XGBoost分类算法相结合的方式对基于网页的应用系统进行有效识别。具体地,本文提出的GSMOTE算法对少数类进行过采样,有效缓解识别样本不平衡问题,并结合XGBoost分类算法进行应用系统的识别。通过在真实数据集上进行实验,结果表明,本文提出的方法在召回率上较传统方法有较明显的提升,比普通集成方法提高约112.8%,比未经过采样处理的方法提升约10.8%,可有效解决油田局域网中的应用系统识别问题。