摘要

目的 基于语音增强和丢包补偿等技术的互联网低比特率编解码器(internet low bit rate codec, iLBC)在丢包率较高的网络环境下仍具有很好的语音质量。如何在隐写容量、不可感知性和抗检测性之间达到理想均衡是iLBC音频隐写面临的难点。为此,本文提出一种基于分层的iLBC语音大容量隐写方法。方法 首先分析iLBC的编码比特流结构。然后基于主观语音质量评估指标PESQ-MOS(perceptual evaluation of speech quality-mean opinion score)和客观语音质量评估指标MCD(mel cepstral distortion)分析在线性频谱频率系数矢量量化过程、动态码本搜索过程和增益量化过程进行隐写对语音质量的影响,提出一种隐写位置分层方法,在增益量化过程和动态码本搜索过程按照嵌入容量和层次的优先级依次进行隐写,尽可能降低失真;对不能嵌满的层,提出一种基于Logistic混沌映射的嵌入位置选择方法,提升隐写的随机性和安全性。最后采用量化索引调制方法进行秘密信息嵌入,进一步提升隐写的安全性。结果 在中英文语音数据集SSD(steganalysis-speech-dataset)上的对比实验结果表明,本文提出的分层隐写方法在隐写容量上提升了1倍,且保持了较好的不可感知性,没有因为写入额外秘密信息而导致音频过度失真。此外,本文方法在30 ms音频帧上嵌入量小于等于18 bit、在20 ms音频帧上嵌入量小于等于12 bit时可以很好地抵抗基于深度学习的音频隐写分析器的检测。结论 本文方法可以充分挖掘iLBC语音的隐写潜能,在提升隐写容量的前提下,仍能保证良好的不可感知性和抗检测性。