摘要

目前针对说话人识别的攻击需要对音频注入长时间的扰动,因此容易被机器或者管理人员发现.提出了一种新颖的基于单"音频像素"扰动的针对说话人识别的隐蔽攻击.该攻击利用了差分进化算法不依赖于模型的黑盒特性和不依赖梯度信息的搜索模式,克服了已有攻击中扰动时长无法被约束的问题,实现了使用单"音频像素"扰动的有效攻击.特别地,设计了一种基于音频段音频点扰动值多元组的候选点构造模式,针对音频数据的时序特性,解决了在攻击方案中差分进化算法的候选点难以被描述的问题.攻击在LibriSpeech数据集上针对60个人的实验表明这一攻击能达到100%的成功率.还开展了大量的实验探究不同条件(如性别、数据集、说话人识别方法等)对于隐蔽攻击性能的影响.上述实验的结果为进行有效地攻击提供了指导.同时,提出了分别基于去噪器、重建算法和语音压缩的防御思路.