基于ResUnet和TFGAN网络的激光麦克风语音增强方法

代欣学; 范松涛; 周燕

doi:10.3788/IRLA20230051

摘要

激光麦克风是一种利用光学多普勒效应获取远场语音信息的技术，其语音质量受到探测系统自身特性、光探测路径以及目标物等多个方面的影响。为了从远距离声场下的目标物获取更高质量的语音信息，文中通过单频声激励实验获得了4种典型目标物(A4纸片、A4纸盒、瓦楞盒、塑料瓶)的声致振动频率响应，发现了其在频率上的非均匀性。在此基础上，提出了一种基于ResUnet和TFGAN网络的激光语音增强方法，其通过ResUnet网络预测去噪梅尔谱图，并利用TFGAN网络由预测的梅尔谱图恢复出激光语音的时域波形。然后，利用实验室自制的激光麦克风在4种目标物上进行了远距离语音采集实验，采用文中提出的方法对采集到的激光麦克风语音进行了处理，并与非线性函数谐波重构法、DNN+谐波重构法进行了比较。最后利用客观语音质量评估(PESQ)和时域分段信噪比(SNRseg)对处理后的激光语音进行了量化评估。实验结果表明，在4种目标物上采集到的激光语音，经过非线性函数谐波重构方法和DNN+谐波重构方法处理后，语音质量均无明显提升，其相应的PESQ和SNRseg分值无明显提高。而经过文中所提的ResUnet+TFGAN网络方法处理后，激光语音取得了更高的PESQ和SNRseg分值，语音质量明显提升。因此，文中提出的方法在激光麦克风应用中具有更好的激光语音增强效果。此外，由实验结果可知，此方法在频率响应一致性较差的目标物上，仍然可以较好地重建频谱，恢复出高质量的语音信息。

单位
中国科学院半导体研究所; 中国科学院大学

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-27 17:09

基于ResUnet和TFGAN网络的激光麦克风语音增强方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友