摘要

版面分割是文档图像分析与识别过程中的重要基础步骤,为了探索适用于藏文文档图像版面分割与描述的方法,提出一种基于自适应游程平滑算法的研究方法。根据藏文文档图像的版面结构,利用K均值聚类分析得到适用于版面的游程阈值,进行游程平滑,寻找连通区域,实现版面分割;根据各版面元素的外轮廓特征,简单区分文本区域与非文本区域;利用藏文文本识别器识别文本区域,再用可扩展标记语言记录版面信息,实现版面描述。在藏文中小学教材文档和铅印版藏文文档图像上的实验表明,该方法能够取得较好的版面分析结果。