本发明公开了一种基于ARM的嵌入式卷积神经网络加速方法,克服了嵌入式设备硬件资源的不足,卷积神经网络计算复杂度高的问题。对轻量化卷积神经网络中常用的耗时严重的1×1卷积和3×3深度可分离卷积使用ARM NEON技术进行优化。特别的,对1×1卷积先进行内存重排,然后使用ARM NEON向量优化,对3×3深度可分离卷积,直接进行ARM NEON向量优化,加速了卷积神经网络的计算,充分利用了嵌入式设备的硬件计算资源,使得部署在嵌入式终端的卷积神经网络运行速度加快,更加实用。