摘要
近年来,社交网络中的“换脸”视频层出不穷,对说话者进行唇型篡改是其中的视频代表之一,这给大众生活增添娱乐的同时,对于网络空间中的个人隐私、财产安全也带来了不小隐患。大多数唇型篡改检测方法在无损条件下取得了较好的表现,但广泛存在于社交媒体平台、人脸识别等场景中的压缩操作,在节约像素和时间冗余的同时,会对视频质量造成影响,破坏空域上像素与像素、帧与帧之间的连贯完整性,导致其检测性能的下降,从而引发对真实视频的错判情况。当空域信息无法提供足够有效的特征时,能够抵抗压缩干扰的频域信息就自然而然地成为重点研究对象。针对这一问题,通过分析频率信息在图像结构和梯度反馈上的优势,提出了空域频域相结合的唇型篡改检测方法,有效利用空域、频域信息的各自特点。对于空域上的唇型特征,设计了自适应提取网络和轻量级的注意力模块;对于频域上的频率特征,设计了不同分量的分离提取与融合模块。随后,通过对空域上的唇型特征和频域上的频率特征进行有侧重的融合,保留更多关键纹理信息。此外,在训练中设计细粒度约束,分开真假唇型特征类间距离的同时,拉近类内距离。实验结果表明,得益于频率信息,所提方法能有效改善压缩情况下的检测准确性,并具备一定的迁移性。另外,在对核心模块开展的消融实验中,相关结果验证了频率分量对于抗压缩的有效性,以及双重损失函数在训练中的约束作用。
-
单位中国科学技术大学; 中国科学院