摘要

近年来,使用对比学习技术在大规模无标注数据上所构建的预训练模型得到了广泛的应用(如车道检测、人脸识别等)。然而,其面临的安全和隐私问题也引起学者的广泛关注。文章聚焦于针对多模态对比学习模型的投毒攻击,该攻击将精心构造的数据注入训练集,以改变模型在特定数据上的预测行为。针对现有投毒攻击主要针对文本或图像单模态模型,没有利用文本或者图像间的多模态信息的问题,文章提出一种同时对文本与图像编码器投毒的靶向投毒攻击。首先,基于Beta分布自动生成水印图像透明度;然后,根据透明度生成添加水印后的样本,并根据水印样本与目标样本之间的欧式距离得到该透明度下应当投毒的样本数;最后,通过特定的优化算法生成投毒数据集。与现有的投毒攻击相比,文章所提方法具有更低的投毒率,并能够保持目标模型的性能。