摘要

语音合成需要将输入语句的文本,转换为包含音素,单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。本文通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级,单词级,语句级文本编码器三个层次。每个层次的文本编码器,描述不同长度的文本信息,并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,来缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器,包括音素级,单词级,语句级语音编码器三个层次。每个层次的语音编码器,将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。本文模型的层次化文本-语音编码器可以灵活的嵌入到现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,本文方法的梅尔倒谱失真小于现有语音合成方法。