摘要

视觉文档赋予文本丰富的多模态特征,如视觉特征、文本特征和布局特征等。视觉文档信息抽取旨在利用视觉文档的多模态特征更好地从文档内容中提取结构化的关键信息,已逐渐成为自然语言处理和计算机视觉技术的重要交叉领域,在商业、医疗、教育等行业应用广泛。随着深度学习技术的发展与突破,近期视觉文档信息抽取发展迅速,研究方法大致可分为两类,一类是基于有监督学习的方法,包括基于图的方法、基于网格的方法、端到端方法;另一类是基于自监督预训练和有监督微调的方法,逐渐成为主流的研究方向。该文概述了基于有监督学习的三类方法,基于自监督预训练和有监督微调方法的四个方面以及一些常用的公开数据集,最后总结并展望了未来可能的研究方向。