提出了一种面向热工过程海量运行数据的高质量样本提取方法,通过主成分分析(PCA)提取系统隐变量,采用基于稳态权重的合成少数类过采样(SWSMOTE)来补充少数类工况样本。以燃气轮机为工程算例,验证所提算法的有效性。结果表明:提出的高质量样本提取方法可将原始数据数量压缩到10%左右,模型平均均方根误差从0.042下降至0.031,模型训练时间减少90%。