摘要
随着机器学习(ML)算法的日益流行,研究人员提出了很多专用于机器学习算法的加速器。然而,这些加速器会被其特定用途的狭窄范围所限制。另外,尽管芯片制造工艺有所提高,但是待处理问题规模的急剧增大依然加剧了这些机器学习加速器的低效程度。针对这种现象,本文研究了4种流行的机器学习算法——k-近邻算法(k-NN),k-均值算法(k-Means),支持向量机(SVM)和逻辑回归(LR),并对这些算法中最为耗时的运算部分进行了深入分析,此外,还针对数据位宽对运算精度、硬件开销的影响进行了分析。根据以上分析,本文设计了一款可以支持多种机器学习算法的运算单元,该运算单元混合使用16位浮点数和32位浮点数的运算器,实现了低面积、低功耗的需求。实验结果表明,本文提出的运算单元可以在几乎不损失正确率的情况下,减少69. 80%的总面积开销以及68. 98%的总功耗开销。
-
单位计算机体系结构国家重点实验室; 中国科学院计算技术研究所; 中国科学院大学