摘要
前沿的自然场景文本检测方法大多基于全卷积语义分割网络(Fully convolutional network, FCN),利用分割网络输出的像素级分类结果,有效检测任意形状的文本.该类方法的主要缺陷是模型规模大,前向推理时间过长,占用较大内存,这在实际应用中限制了其部署.为达到模型容量和效率的折衷,本文提出一种面向文本检测模型的知识蒸馏方法.知识蒸馏在图像分类任务中作为模型压缩和提升模型精度的技巧而广泛使用,然而知识蒸馏需要提前训练庞大的教师网络,会增加训练成本,并且由于师生网络的学习能力差异,造成知识迁移效率下降;同时,传统的知识蒸馏方法多用于图像分类任务,当应用到文本检测模型时无法取得令人满意的性能.本文提出了一种基于信息熵迁移的自蒸馏训练方法 (Self-distillation via entropy transfer, SDET),将文本检测网络的深层网络输出的分割图的信息熵作为待迁移的知识,通过一个辅助网络将其直接反馈给浅层网络,从而提升模型对文本框边缘的关注; SDET同时利用信息熵和标签信息监督浅层网络的训练,最终提升网络的性能.与依赖教师网络的知识蒸馏不同, SDET仅在训练阶段增加一个辅助网络,以微小的额外训练代价实现无需教师网络的自蒸馏.在TD500、TD-TR、ICDAR2013、ICDAR2015、Total-Text和CASIA-10K六个自然场景文本检测的标准数据集上的实验表明SDET能显著提升基线文本检测网络的召回率和F1得分,且优于其它蒸馏方法.
- 单位