摘要
[目的/意义]黑灰产业通过大量的恶意网站,严重地危害着家庭网络安全。有效地识别恶意网站,对于打击黑灰产业犯罪具有重要意义。传统的恶意网站识别算法,无论是基于规则匹配或是机器学习,都会因为有标注的恶意样本过少而成为“瓶颈”。[方法/过程]面向家庭网络流量提出了一种在海量网页上进行多模态自监督学习的预训练方法。这种方法能够从数以亿计的网页中学习网页的基本知识,从而获得更好的网页向量表示,并在后续分类微调时引入一种网页结构的向量表示,与网页和文本的多模态交叉注意力特征相结合。[结果/结论]相对于传统方案,多模态预训练恶意网站识别算法明显地提升了识别效果,基于近邻查找的方法能在应对恶意对抗时及时做出反馈,提高了对于家庭网络黑灰产业流量的识别率。
- 单位