摘要

近年来,篡改文本图像在互联网的广泛传播为文本图像安全带来严重威胁。然而,相应的篡改文本检测(TTD,tamperedtextdetection)方法却未得到充分的探索。TTD任务旨在定位图像中所有文本区域,同时根据纹理的真实性判断文本区域是否被篡改。与一般的文本检测任务不同,TTD任务需要进一步感知真实文本和篡改文本分类的细粒度信息。TTD任务有两个主要挑战:一方面,由于真实文本和篡改文本的纹理具有较高的相似性,仅在空域(RGB)进行纹理特征学习的篡改文本检测方法不能很好地区分两类文本;另一方面,由于检测真实文本和篡改文本的难度不同,检测模型无法平衡两类文本的学习过程,从而造成两类文本检测精度的不平衡问题。相较于空域特征,文本纹理在频域中的不连续性能够帮助网络鉴别文本实例的真伪,根据上述依据,提出基于空域和频域(RGB and frequency)关系建模的篡改文本检测方法。采用空域和频域特征提取器分别提取空域和频域特征,通过引入频域信息增强网络对篡改纹理的鉴别能力;使用全局空频域关系模块建模不同文本实例的纹理真实性关系,通过参考同幅图像中其他文本实例的空频域特征来辅助判断当前文本实例的真伪性,从而平衡真实和篡改文本检测难度,解决检测精度不平衡问题;提出一个票据篡改文本图像数据集(Tampered-SROIE)来验证上述篡改文本检测方法的有效性,该数据集包含986张图像(626张训练图像和360张测试图像)。该方法在Tampered-SROIE上的真实和篡改文本检测F值分别达到95.97%和96.80%,同时降低检测精度不平衡性1.13%。该方法从网络结构与检测策略的角度为篡改文本检测任务提供了新的解决方案,同时Tampered-SROIE为以后的篡改文本检测方法提供了评估基准。