摘要
视频篡改造成的危害一直在危及人们的生活,这使深度伪造检测技术逐渐得到广泛关注和发展。然而,目前的检测方法由于使用了不灵活的约束条件,无法有效捕获噪声残差;此外,也忽略了纹理和语义特征之间的关联,以及时序特征对检测性能提升的影响。为了解决上述问题,文中提出了一种用于深度伪造检测的、具有多样化特征的自适应网络(AdfNet),它通过提取语义特征、纹理特征和时序特征帮助分类器判断真伪;探索了自适应纹理噪声提取机制(ATNEM),通过未池化的特征映射与基于频域的通道注意力机制,灵活捕获非固定频段的噪声残差;设计了深层语义分析指导策略(DSAGS),通过空间注意力机制突出篡改痕迹,并引导特征提取器关注焦点区域的深层特征;研究了多尺度时序特征处理方法(MTFPM),利用时序注意力机制给不同视频帧分配权重,捕获被篡改视频中时间序列的差异。实验结果表明,所提出的网络在FaceForensics++(FF++)数据集HQ模式中的ACC值为97.41%,相比当前主流网络有较为明显的性能提升;并且在FF++数据集上保持AUC值为99.80%的同时,在CelebDF上AUC值可达到76.41%,具有较强的泛化性。
- 单位