摘要

藏文文本质量是影响藏文信息处理的重要因素,纠正藏文文本中复杂多样的音节错误是提高藏文文本质量的重要工作。本文以1.5亿多音节的真实藏文文本为统计源,并从中查找出2 333 617个错误音节(约占总语料库文本的5.6%),并根据上下文信息和藏文文法规则对错误音节进行人工纠错和分类,把藏文音节错误归为11种类型,并统计每一种错误类型的出现频度、高频错误音节等,分析错误原因,为藏文文本校对系统等软件的设计和实现提供参考。