摘要
口语文本顺滑技术是语音翻译系统中的重要组成部分。其目标是识别并删除语音识别文本中所包含的重复、停顿、修正、冗余等口语现象,进而使口语文本更加书面化,增加文本的可读性和可理解性,有助于提高后续语言处理任务的准确率。本文针对口语文本顺滑问题提出一种基于自注意力机制的识别技术。该技术利用了深度学习中的自注意力神经网络。自注意力神经网络具有很强的序列建模能力,本文首先利用自注意力网络对口语文本进行编码,在此基础之上识别文本中的不流畅因素。在公开数据集上的测试结果表明本文提出的方法可以有效地识别口语中的不流畅因素。
- 单位