摘要
现有的基于决策的黑盒文本对抗攻击方案无法兼顾攻击效果和攻击效率,因此,提出了一种简单而高效的基于决策的单词级黑盒文本对抗攻击方法 TextLeak。该方法的核心思想是通过多级搜索的方式寻找最小扰动以生成对抗样本,即先通过粗粒度搜索确定目标区域,然后基于该目标区域通过细粒度搜索找到最优解作为对抗样本。以攻击成功率、扰动率以及查询次数为主要评估指标,在相同的数据集和模型下,选取了三个目前效果最好的基于决策的黑盒文本对抗攻击作为基线方法进行实验对比。实验结果表明,TextLeak在文本分类任务上平均查询次数约为368次,平均攻击成功率约为96.0%,与基于种群的方法(population-based optimization algorithm, POA)相比,在攻击成功率相当的情况下,TextLeak的平均查询次数约为POA的5.25%。这表明TextLeak具有高攻击成功率和高查询效率,是一种简单、高效且实用的文本对抗攻击方法,具有广泛的应用前景。
- 单位