Tri-BERT-SENet:融合多特征的恶意网页识别

作者:杨立圣; 罗文华
来源:小型微型计算机系统, 2023, 44(04): 875-880.
DOI:10.20009/j.cnki.21-1106/TP.2022-0479

摘要

传统恶意网页识别缺乏全局性、系统性考量,没有将网页作为有机整体,而是独立针对标签结构、URL地址、文本内容等特定层面特征开展研究,导致准确率较低.虽然已有学者提出融合特征思想,但依旧使用机器学习算法予以实现,特征工程工作量巨大,识别效率低下.针对上述问题,提出一种基于多特征融合的Tri-BERT-SENet模型,用于完成恶意网页的识别任务.利用获取得到的HTML特征、网页URL特征以及网页文本特征,结合BERT模型的上下文感知能力,将特征转化为3个BERT模型输出;之后将模型输出作为特征通道,使用SENet进行加权计算,最终输出识别结果.实验结果表明,与传统机器学习模型以及使用BERT对单一特征的识别方法相比,该检测方法在恶意网页识别的准确率上有较大提升.

  • 单位
    中国刑事警察学院