时序对齐视觉特征映射的音效生成方法

谢志峰; 孙络祎; 孙郁洲; 余椿鹏; 马利庄

摘要

针对目前视觉引导的音效生成方法存在的保真度低、时序对齐效果差等问题,提出一种基于时序对齐视觉特征映射的音效生成方法.首先,设计基于时序约束的特征聚合窗口,将视频序列滑动整合为视觉特征集合;其次,构建时空匹配的跨模态视音频特征映射网络,将视觉特征集合转换为多频段音频特征;最后,采用音频解码器将音频特征解码为梅尔频谱,再使用声码器将其转换为最终波形.在VAS数据集上进行定性与定量实验,实验结果表明,与现有方法相比,文中方法在语音质量感知评估、发声点平均偏移量以及人工评估方面均有显著提升,其中,发声点平均偏移量平均降低至0.2 s.

单位
上海大学; 上海交通大学

收藏分享被引浏览

更新时间：2024-03-20 22:17

时序对齐视觉特征映射的音效生成方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友