摘要
针对自然场景中文字符检测率低、小字符检测困难以及字符检测类别多样等问题,提出一种基于YOLOv2的改进方法,并将其应用于自然场景中文字符检测中.首先利用k-means++聚类算法对字符目标候选框(anchor)的数量和宽高比维度进行聚类分析,提出多层特征融合策略,对原网络中第4个最大池化层前所输出的特征图经过3×3和1×1大小的卷积核进行卷积操作,并执行4倍的下采样得到局部特征;然后对第5个最大池化层前所输出的特征图经过3×3和1×1大小的卷积核进行卷积操作,并执行2倍的下采样得到局部特征,将局部特征与全局特征融合,同时增加高层卷积中的重复卷积层,将高层卷积中连续且重复的3×3×1 024大小的卷积层数由3增加为5;最后使用Chinese text in the wild (CTW)数据集对YOLOv2和改进的YOLOv2算法进行对比实验,结果表明,改进后的YOLOv2算法在中文字符检测中平均准确率均值为78.3%,较原YOLOv2算法提升了7.3%,且明显高于其他自然场景中的文字符检测方法.
- 单位