摘要

数据预取技术已经广泛应用在各类中央处理器(CPU)设计领域,取得了很好的效果。而图形处理器(GPU)对存储带宽的需求更为巨大,与图形渲染流水线和图形算法直接相关,且数据访问模式与通用CPU有显著差异,需要更有针对性的有效数据预取机制。针对GPU深度测试关键功能,本文提出一种图元光栅化触发的高效深度数据预取机制——DPRT,通过图元光栅化过程中实时扫描到的片段块地址来触发Z缓存(Z Cache)的深度数据预取,同时为了适应不同实现中流水线处理延迟,为Z Cache数据块增加访问一次标志(OTT),保证深度数据预取有效性。实验结果表明,DPRT使深度测试时Z Cache访问命中率平均提升9.51%,深度测试延迟平均降低40.43%。