摘要
自然场景中的文本图像具有十分复杂多变的特征,使用区域候选网络(Region Proposal Network, RPN)提取文本矩形位置候选框是不可或缺的一个步骤,能够极大地提升文本检测的精度。然而最近的研究表明,通过最小化平滑的L1损失函数来回归矩形候选框中心点、宽和高的方式容易产生边界信息缺失、回归不准确等问题。针对这一问题,提出了一种基于改进区域候选网络的场景文本检测模型。首先,使用残差网络和特征金字塔网络组成的骨干网络生成共享特征图。然后,使用改进的回归取点方式和基于顶点的VIOU损失函数(Vertex-IOU)在共享特征图上生成系列文本矩形候选框。接着,使用ROI Align将这些候选框转化为固定大小的特征图在全连接层进行边界框预测。最后,在ICDAR2015数据集上进行对比实验,结果表明,与其他模型相比,所提模型可以提升检测精度,证明了所提模型的有效性。
- 单位