针对目前艺术嗓音评价效率低、主观性强的问题,提出了一种基于卷积神经网络的嗓音质量客观评价方法。在该方法中,将音频信号转化为一定尺寸的梅尔声谱图,并构建了一种多层CNN网络架构的图像特征模型,使得艺术嗓音客观评价问题转化为图像分类问题。实验表明,通过深度学习方法客观评价艺术嗓音质量,相比于已有提取声学参数和机器学习的评价方法,准确率有一定提高,为客观高效地评估艺术嗓音提供了一种新方法,具有较高的应用价值。