摘要
提出了一种新的通用表格提取工具,该工具结合了数据挖掘技术和机器学习方法,能够有效且高效地从表格中识别和提取数据。首先使用卷积神经网络来识别和分离出所有潜在的表,通过与物体检测网络相结合,进一步优化了识别过程。然后,用计算机视觉方法识别每个表的高层结构,另一个卷积神经网络使用这种高层次的结构化元数据来识别准确的单元位置。最后,在每个单独的单元上执行光学字符识别,以提取它们的内容。这种多阶段算法允许神经网络专注于完成复杂的任务,同时让图像处理方法高效地完成更简单的任务。这使得所提出的方法足够通用,可以处理大量的表,而不管它们的内部编码或布局的复杂性。此外,它在ICDAR 2013表数据集上取得了0.915 6的F1分数。
- 单位