摘要

为了进一步提高模型量化技术对卷积神经网络的压缩作用,文中介绍了一种混合精度量化方法。该方法将会把模型各层的权重量化成不同的精度,从而获得体积更小的模型。文中还介绍了针对低精度模型的训练方法,能够有效地更新量化后的模型权重。实验结果表示,该方法对于经典网络、ResNet和MobileNet都同样有效,可实现数倍乃至数十倍的体积压缩;在部署到FPGA平台后,混合精度的模型还可以获得14倍于浮点数模型的加速。

全文