摘要

图形处理器用于绘制三维图形、模拟生物环境、进行通用计算、海量数据并行处理等应用场景,是涉及多学科交叉,具有高复杂度、高实时性、高精度计算的专用处理器。在海量信息的复杂处理过程中,图形处理器的计算过程经过复杂的状态跳变输出最终结果。如何在复杂的处理过程中保障图形处理器高效、有序的运行,在故障发生时进行快速的故障分析与检测,合理的故障处理与故障隔离,保证核心功能,最小系统在异常状态下正常运行,是图形处理器应用、管理的核心问题。文中在分析图形处理运行原理的基础上,提出了图形处理状态管理、性能监控及故障定义与处理方法,规范了图形处理器驱动软件的开发,准确定位性能瓶颈,快速分析故障与处理,在最小的资源集合下保证图形处理器核心功能的正常运行。