准确选取高置信度样本是提升自训练算法分类性能的关键。针对自训练迭代过程中的误分类样本,提出一种结合密度峰值和集成过滤器的自训练算法:利用密度峰值聚类计算样本的密度和峰值,构建初始高置信度样本集;为了过滤自训练迭代过程中的误分类样本,设计一个集成过滤器,从初始高置信度样本集进一步选择高置信度样本,将其添加进有标签样本集中迭代训练。在9个数据集上与4个相关的自训练算法进行对比实验,结果表明,算法的平均准确率和F分数分别为67.90%和65.54%,其分类性能显著优于对比算法。