中文古籍字符识别、组段与版面重建方法、介质和设备

薛洋; 李智豪

摘要

本发明公开了中文古籍字符识别、组段与版面重建方法、介质和设备,首先获取已标注字符边界框和字符类别的中文古籍文档图像,作为原始训练样本；同时获取原始训练样本的标注文件；随机选取多个原始训练样本,进行处理后得到新的训练样本：通过在线随机裁剪的方式对原始训练样本和新训练样本进行处理,得到训练样本集；通过训练样本集中的训练样本训练字符级检测分类模型；针对要识别字符的中文古籍文档图像,将其输入到字符级检测分类模型,得到中文古籍文档图像各字符的预测边界框和预测类别。本发明方法不仅能够识别出常见的字符,而且还能够非常准确的识别出古籍中的一些不常见的特殊字符,克服现有技术中古籍文档识别存在错判、遗漏等问题。

单位
华南理工大学

收藏分享被引浏览

更新时间：2024-12-27 19:33

中文古籍字符识别、组段与版面重建方法、介质和设备

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友