摘要

卷积神经网络在自然场景文本检测中的应用,大大提高了文本检测的准确性。但由相机视角和文本本身引起的尺度多变性和文本分布的多样性仍然给文本检测带来了挑战。从解决文本尺度多变性的角度出发,我们提出了一个新的多层次特征融合模块,在特征金字塔融合不同层级特征的同时,额外添加了一个空洞卷积池化模块分支,在不降低特征尺度的同时拥有不同的感受野,获取了更丰富的特征,有利于缓解文本尺度多变性的问题。我们通过特征注意力机制进一步提取更加适合于文本的特征,有效地实现了不同通道间信息的交互,缓解了因文本分布多样性而带来的检测难题。我们进一步提升了文本检测器的准确率,在ICDAR2015,CTW1500,Total-Text,MSRA-TD500这四个数据集上的实验结果证明了本文所提方法的有效性。