摘要

激光麦克风是一种利用光学多普勒效应获取远场语音信息的技术,其语音质量受到探测系统自身特性、光探测路径以及目标物等多个方面的影响。为了从远距离声场下的目标物获取更高质量的语音信息,文中通过单频声激励实验获得了4种典型目标物(A4纸片、A4纸盒、瓦楞盒、塑料瓶)的声致振动频率响应,发现了其在频率上的非均匀性。在此基础上,提出了一种基于ResUnet和TFGAN网络的激光语音增强方法,其通过ResUnet网络预测去噪梅尔谱图,并利用TFGAN网络由预测的梅尔谱图恢复出激光语音的时域波形。然后,利用实验室自制的激光麦克风在4种目标物上进行了远距离语音采集实验,采用文中提出的方法对采集到的激光麦克风语音进行了处理,并与非线性函数谐波重构法、DNN+谐波重构法进行了比较。最后利用客观语音质量评估(PESQ)和时域分段信噪比(SNRseg)对处理后的激光语音进行了量化评估。实验结果表明,在4种目标物上采集到的激光语音,经过非线性函数谐波重构方法和DNN+谐波重构方法处理后,语音质量均无明显提升,其相应的PESQ和SNRseg分值无明显提高。而经过文中所提的ResUnet+TFGAN网络方法处理后,激光语音取得了更高的PESQ和SNRseg分值,语音质量明显提升。因此,文中提出的方法在激光麦克风应用中具有更好的激光语音增强效果。此外,由实验结果可知,此方法在频率响应一致性较差的目标物上,仍然可以较好地重建频谱,恢复出高质量的语音信息。

全文