基于多阶段数据生成的自循环文本智能识别

作者:马新强; 刘丽娜; 李雪维; 顾晔; 黄羿; 刘勇*
来源:模式识别与人工智能, 2020, 33(05): 468-477.
DOI:10.16451/j.cnki.issn1003-6059.202005009

摘要

在复杂多样场景下,极少存在同时对英文和中文都具有较优识别效果的大数据标注方法.因此文中提出针对复杂多样文本识别场景的数据生成和多阶段自循环训练算法.按照定义的生成数据参数随机生成文本数据,免去数据标注过程.在卷积循环神经网络的基础上,进行多阶段自循环训练,在循环过程中通过控制数据生成策略不断提升样本的识别精度.实验表明,文中算法在多个公开英文数据集及中文特定的复杂文本场景下都具有良好的识别性能.

全文