摘要

针对自然场景中中文文本的提取效率不足的问题,提出了一种基于ISODATA聚类和支持向量机(SVM)结合的自然场景中文文本提取算法。根据文本颜色和笔画的特征通过ISODATA聚类算法和局部分割的方法,分割出类文本区域;利用有效的几何特征,通过连通域分析去除部分非文本域;利用中心聚合方法使结构分离的中文文本合并后,将文本连接成行,提出行级特征用SVM分类出正确文本行及相应文本。实验结果表明,该算法对中文文本具有很好的提取效果和综合性能。