基于深度学习的多方向维吾尔文区域检测

作者:阿卜杜外力·如则; 帕力旦·吐尔逊; 阿布都萨拉木·达吾提; 艾斯卡尔·艾木都拉
来源:电视技术, 2019, Z1: 71-78.
DOI:10.16280/j.videoe.2019.11/12.025

摘要

自然场景文本的背景复杂,很难确定文本位置,文本检测带来很大的挑战。从而提出一个基于目标检测的改进Yolo(You Only Look Once)自然场景多方向文本区域检测模型。在收集的2 500张训练和500张测试多方向维吾尔文数据集上,通过改进的K-means算法生成3种固定宽度的预设Anchor,对文本区域进行分类和多个垂直的矩形预测框位置回归,生成多方向文本检测框。检测文本预测框不同的连接和融合方式,检测多方向维吾尔文本,减少对角线上多余背景。在测试集上的实验中,得到了77%的准确率。实验结果表明,改进的Yolo v3模型在多方向维吾尔文场景文字区域检测任务中具有鲁棒性和应用性。