一种基于多模态感知的双声道音频生成方法

官丽<sup>*</sup>; 尹康; 樊梦佳; 薛昆; 解凯

doi:10.16339/j.cnki.jsjsyzdh.202204026

摘要

现有多数视频只包含单声道音频，缺乏双声道音频所带来的立体感。针对这一问题，本文提出了一种基于多模态感知的双声道音频生成方法，其在分析视频中视觉信息的基础上，将视频的空间信息与音频内容融合，自动为原始单声道音频添加空间化特征，生成更接近真实听觉体验的双声道音频。我们首先采用一种改进的音频视频融合分析网络，以编码器-解码器的结构，对单声道视频进行编码，接着对视频特征和音频特征进行多尺度融合，并对视频及音频信息进行协同分析，使得双声道音频拥有了原始单声道音频所没有的空间信息，最终生成得到视频对应的双声道音频。在公开数据集上的实验结果表明，本方法取得了优于现有模型的双声道音频生成效果，在STFT距离以及ENV距离两项指标上均取得提升。

单位
南京南瑞继保电气有限公司; 国网北京市电力公司

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 16:45

一种基于多模态感知的双声道音频生成方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友