摘要

本发明公开了中文古籍字符识别、组段与版面重建方法、介质和设备,首先获取已标注字符边界框和字符类别的中文古籍文档图像,作为原始训练样本;同时获取原始训练样本的标注文件;随机选取多个原始训练样本,进行处理后得到新的训练样本:通过在线随机裁剪的方式对原始训练样本和新训练样本进行处理,得到训练样本集;通过训练样本集中的训练样本训练字符级检测分类模型;针对要识别字符的中文古籍文档图像,将其输入到字符级检测分类模型,得到中文古籍文档图像各字符的预测边界框和预测类别。本发明方法不仅能够识别出常见的字符,而且还能够非常准确的识别出古籍中的一些不常见的特殊字符,克服现有技术中古籍文档识别存在错判、遗漏等问题。