摘要

针对电子伪装语音还原研究在还原模型的构建方面并无突破性进展的状况,提出了一种基于扩大的因果卷积神经网络(Dilated Casual-Convolution Neural Network,DC-CNN)的电子伪装语音还原模型。该还原模型以DC-CNN为框架,对电子伪装语音历史采样点的声学信息与还原因子进行卷积和非线性映射运算。同时模型的神经网络采用跃层连接技术以优化深层传递,再经过压扩转换后输出还原语音。该模型具有非线性映射性、扩展性、多适应性与条件性、并发性等明显特点。在实验分析中,以3个基本变声功能:音调(pitch)、节拍(tempo)和速度(rate)对钢琴曲和英文语音分别进行电子伪装变声处理,再经模型还原,将还原语音与原始语音进行声纹特征比对、LPC数据分析和语音同一性的人耳测听辨识,结果表明,还原语音与原始语音的声纹特征十分吻合,且实现了高质量的共振峰波形复原,钢琴曲和英文语音的共振峰参数总体还原拟合率分别达到79.03%和79.06%,远超电子伪装语音与原始语音35%的相似比例,这说明该模型能有效削减语音中的电子伪装特征,较好地实现了电子伪装的钢琴曲和英文语音的还原。