摘要
目的 探究现阶段的AI合成语音与真人语音在声纹检验方面的差异。方法 通过收集两名AI虚拟主播及其各自原型的语音,以声纹鉴定的角度进行听觉感知、语谱分析两个方面的研究。结果 合成语音在听觉感知上仍能发现缺乏情感和自然度、断句错误等问题,基于实验所用语音高频共振峰的相对稳定性,合成语音与其原型的差异主要表现在4 kHz以上的高频共振峰上,有些音节在3 kHz以上即能显出差别,合成语音部分音节内的辅音-元音过渡段缺失。结论 在当前技术水平下,合成语音在处理韵律问题上有待提高,听觉分析可作判断合成语音的声纹检验参考。在语谱分析中能在合成语音和真人语音的高频图谱以及部分音节的辅音-元音过渡中呈现差异。
-
单位广东省公安厅刑事技术中心