基于样本分布特征的数据投毒防御

杨立圣; 罗文华<sup>*</sup>

doi:10.19734/j.issn.1001-3695.2023.01.0025

摘要

流量分类模型在更新过程中易受数据污染的干扰而降低模型性能，现有基于数据清洗的防御方法需依赖专家经验和人工筛选，且无法有效应对利用未知分布样本构造的投毒攻击。针对上述问题，受分布外检测和判别主动学习的启发，设计一种基于样本分布特征的数据投毒防御方法，通过二分类判别器筛选每轮新增样本中的已知及未知分布样本。对于新增的已知分布样本，通过模型预测与标注结果一致率评估新增样本的数据质量，决定是否进行模型更新；对于新增的未知分布样本，则利用基于标注正确率的少样本抽检评估样本可用性。实验结果表明，该方法在抵御数据投毒攻击的同时可以保证模型准确率，并有效识别利用未知分布样本构造的数据投毒攻击。

单位
中国刑事警察学院

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 07:29

基于样本分布特征的数据投毒防御

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友