摘要

随着互联网技术的发展,Web应用系统已经广泛应用于政府门户网站、电子商务、互联网等行业,方便生活和工作的同时也带来网络安全隐患.黑客利用扫描技术不仅能够找到服务器漏洞进行攻击,而且扫描产生的大量数据报文也占用了大量的网络带宽,导致正常的网络通信无法进行.针对这个问题,提出通过解析客户端访问日志提取2s时间内日志的本次IP访问的响应码、2 s时间内本次IP的访问数占全部IP访问数的比例、2 s时间内本次IP访问的404响应码个数占本次IP访问的比例、2 s时间内本次IP访问的端口方差,提取100条日志本次IP的访问数占比、100条日志中本次IP访问的404响应码个数、100条日志本次IP访问的端口方差7个特征,通过机器学习中朴素贝叶斯分类算法识别扫描行为的方法.并且使用spark的mLlib贝叶斯算法训练存储HDFS平台的扫描日志,定时更新算法模板,实现对抗恶意扫描的能力,最终通过iptables对扫描IP进行网络层封禁.该方法提高识别准确率,降低误报率,有效降低恶意流量,防护客户网站.