在对DVD的内容进行管理和检索时,需要针对字幕文本进行处理,因此需要对DVD字幕流图片中的文本进行提取和识别,以获得纯文本数据。本文通过对DVD文件结构和字幕流数据存储结构的研究和分析,描述了字幕、私有流1和VOB文件的结构以及访问技术;针对英文字幕,提出了一种DVD字幕流分离、图片提取与解码、字符分割、样本训练以及文本识别的基本方法。通过简单的数据训练,就可使用该方法快速完成DVD英文字幕文本的自动生成。