摘要
常见的php-webshell检测方法主要有静态检测方法和动态检测方法两类,相较于动态检测方法,静态检测方法以其占用资源少,检测周期短,效率高的优点,获得了更为广泛的应用,但是传统的基于正则匹配的静态检测方法,不能有效识别混淆后的php-webshell脚本,也不能有效识别从未出现过的php-webshell脚本,新兴的使用机器学习算法的静态检测方法又有着特征普适性差的缺点。针对以上问题,提出了一种基于文本向量的php-webshell检测方法,使用n-gram算法和TF-IDF算法将php脚本执行过程中产生的操作码序列转化为文本向量,以文本向量作为输入特征,使用极限梯度提升算法XGBoost对php脚本分类,通过判断分类结果,实现phpwebshell检测,实验结果表明,所提方法能有效地检测php-webshell,提高了php-webshell静态检测方法的准确率。
- 单位