基于数据合成和度量学习的台标检测与识别

作者:张广朋; 张冬明*; 张菁; 王川宁; 王立冬; 邹学强
来源:软件学报, 2022, 33(09): 3180-3194.
DOI:10.13328/j.cnki.jos.006619

摘要

台标是视频的重要语义信息,其检测与识别面临类别多、结构复杂、区域小、信息量低、背景干扰大等难题.为提高模型的泛化能力,提出将台标图像叠加到背景图像中合成台标数据,来构建训练数据集.进一步,提出两阶段可伸缩台标检测与识别(scalable logo detection and recognition, SLDR)方法,其采用batch-hard度量学习方法快速训练匹配模型,确定台标类别. SLDR的检测与识别分离机制使得其可将检测目标扩展到未知类别.实验结果表明,合成数据可以有效提升模型的泛化能力和检测精度.实验亦显示SLDR方法在不更新检测模型的情况下,即可获得与端到端模型相当的精度.

全文