由于中文信息处理的复杂性和特殊性,中文搜索引擎技术需要不断改进,中文搜索引擎不能直接照搬国外技术,研究和分析中文的专业知识,可以准确地发现在海量信息库中对中文信息的需求。本文在字符识别中引入了随机游走模型的字典学习和稀疏表示,解决了钢笔字符和传真字符的噪声问题,提出了一种新的分析框架用来帮助处理。该识别方法不需要预处理操作如字符二值化和细化,仅需要一个特征和一个分类器,与当前的多特征多级联分类器融合识别。提出的方法具有低复杂度的特点,实验结果也反映了该模型的鲁棒性。