基于变分自动编码的情感语音合成方法、系统、设备及介质,方法包括:数据预处理、模型构建、模型训练及优化、语音还原;系统、设备及介质:用于实现基于变分自动编码的情感语音合成方法;本发明通过基于变分自动编码的风格生成模型从输入音频中学习情感风格,并利用变分自动编码器的特性微调融合情感风格特征,将情感风格特征、声学特征和文本序列输入注意力机制改进的端到端语音合成模型,提升了模型整体的情感细节建模能力和上下文信息学习能力,提高了合成语音的情感表现力和内容准确度。