摘要

定量分析一维FFT的分解基数选取、旋转因子计算、倒序排列等各个阶段在GPU上并行执行时的特征,并提出以蝶形算子访存跨度为依据的共享内存访问机制,解决共享内存访问效率过低的问题。在此基础上,提出批量列处理机制,解决二维FFT列变换时的全局内存访问不连续问题。实验结果表明,在图像尺寸从1024×1024到4096×4096像素的情况下,加速后的二维FFT程序的性能较CUFFT库函数提升5%-13%。