摘要
图卷积神经网络GCN当前主要在PyTorch等深度学习框架上基于GPU实现加速。然而GCN的运算过程包含多层嵌套的矩阵乘法和数据访存操作,使用GPU虽然可以满足实时性需求,但是部署代价大、能效比低。为了提高GCN算法的计算性能并保持软件灵活性,提出一种基于RSIC-V SoC的定制GCN加速器,在蜂鸟E203的SoC平台中通过点积运算扩展指令和硬件加速器软硬件协同的方法实现了针对GCN的加速,通过神经网络参数分析确定了从浮点数到32位定点数的硬件量化方案。实验结果表明,在Cora数据集上运行GCN算法时,该加速器没有精度损失,速度最高提高了6.88倍。
- 单位