规则压缩模型和灵活架构的Transformer加速器设计

姜小波; 邓晗珂; 莫志杰; 黎红源<sup>*</sup>

摘要

基于注意力机制的Transformer模型具有优越的性能，设计专用的Transformer加速器能大幅提高推理性能以及降低推理功耗。Transformer模型复杂性包括数量上和结构上的复杂性，其中结构上的复杂性导致不规则模型和规则硬件之间的失配，降低了模型映射到硬件的效率。目前的加速器研究主要聚焦在解决模型数量上的复杂性，但对如何解决模型结构上的复杂性研究得不多。本文首先提出了规则压缩模型，降低模型的结构复杂度，提高模型和硬件的匹配度，提高模型映射到硬件的效率。接着提出一种硬件友好的模型压缩方法，采用规则的偏移对角权重剪枝方案和简化硬件量化推理逻辑。此外，提出了一个高效灵活的硬件架构，包括一种以块为单元的权重固定脉动运算阵列，同时包括一种准分布的存储架构。该架构可以高效实现算法到运算阵列的映射，同时实现高效的数据存储效率和降低数据移动。实验结果表明，该文工作在性能损失极小的情况下实现93.75%的压缩率，在FPGA上实现的加速器可以高效处理压缩后的Transformer模型，相比于中央处理器(CPU)和图形处理器(GPU)能效分别提高了12.45倍和4.17倍。

单位
华南理工大学; 广东科学技术职业学院

收藏分享被引浏览

更新时间：2024-03-22 16:13

规则压缩模型和灵活架构的Transformer加速器设计

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友