一种端到端语音合成中的高效解码自注意力网络（英文）

赵伟; 许力<sup>*</sup>

摘要

自注意力网络由于其并行结构和强大的序列建模能力，被广泛应用于语音合成（TTS）领域。然而，当使用自回归解码方法进行端到端语音合成时，由于序列长度的二次复杂性，其推理速度相对较慢。当部署设备未配备图形处理器（GPU）时，该效率问题更加严重。为解决该问题，提出一种高效解码自注意力网络（EDSA）作为替代。通过一个动态规划解码过程，有效加速TTS模型推理，使其具有线性计算复杂度。基于普通话和英文数据集的实验结果表明，所提EDSA模型在中央处理器（CPU）和GPU上的推理速度分别提高720%和50%，而性能几乎相同。因此，在GPU资源有限的情况下，该方法可使此类模型的部署更加容易。此外，所提模型在域外语言处理上可能比基线Transformer TTS性能更好。

单位
浙江大学

收藏分享被引浏览

更新时间：2024-03-20 20:47

一种端到端语音合成中的高效解码自注意力网络（英文）

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友