基于BERT模型的文本对抗样本生成方法

李宇航; 杨玉丽; 马垚; 于丹; 陈永乐<sup>*</sup>

摘要

针对现有对抗样本生成方法需要大量访问目标模型，导致攻击效果较差的问题，提出了基于BERT(Bidirectional Encoder Representations from Transformers)模型的文本对抗样本生成方法（TAEGM）。首先采用注意力机制，在不访问目标模型的情况下，定位显著影响分类结果的关键单词；其次通过BERT模型对关键单词进行单词级扰动，从而生成候选样本；最后对候选样本进行聚类，并从对分类结果影响更大的簇中选择对抗样本。在Yelp Reviews、AG News和IMDB Review数据集上的实验结果表明，相较于攻击成功率（SR）次优的对抗样本生成方法CLARE(ContextuaLized AdversaRial Example generation model),TAEGM在保证对抗攻击SR的前提下，对目标模型的访问次数（QC）平均减少了62.3%，时间平均减少了68.6%。在此基础之上，进一步的实验结果验证了TAEGM生成的对抗样本不仅具有很好的迁移性，还可以通过对抗训练提升模型的鲁棒性。

单位
太原理工大学

收藏分享被引浏览

更新时间：2024-03-18 20:59

基于BERT模型的文本对抗样本生成方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友