摘要
基于深度学习特征编码及计算机设计场景图片来进行文本图片分类。算法首先对输入的图片使用最大值稳定区域进行文字候选区域提取,然后将这些提取出来的区域输入到多类卷积神经网络中,然后将CNN最后一层的输出作为每个区域的特征;再使用词袋模型把区域特征表示成为编码,最后利用这些编码输入到支持向量机中并作最后的判定。本文算法目的是提取文字候选区域来作为算法的感兴趣区域,结合深度学习算法使得文字图片的识别更加准确,使系统具有更好的鲁棒性。在对卷积神经网络进行算法训练的时候,可以对感兴趣的区域进行聚类,最终使得原来的两种分类变成了多种分类,进而使得文字区域特征的划分更具细粒度。
-
单位重庆财经职业学院