本发明公开了一种基于零次学习的跨语种音色转换系统及方法,该系统依次包括混合音素识别模块、音色转换模块、说话人编码模块、声码器模块。该系统将语音信号梅尔谱作为输入信号,通过一个音素识别模块提取其瓶颈特征,并对特征做归一化后传送到声学模型中,通过控制说话人参考向量,从而控制声学模型合成的梅尔谱,最后通过一个声码器合成音频。该系统能将一般说话人语音转换成指定说话人音色,并且适用于并未出现在训练数据库中的口音语料,能够适用于多地区方言的变声,具有广阔的应用前景。