摘要

不平衡数据越来越多地出现在各个领域,而传统机器学习分类算法往往会忽略少数类样本的分类精度,针对此问题,提出一种基于密度峰值聚类改进的欠采样算法。该算法利用信息熵对密度峰值聚类算法进行优化,获取最优截断距离;选取密度距离较大的点作为聚类中心并选取所有聚类中心代表整个多数类数据集。将该文算法与几种欠采样算法进行对比实验,结果表明,该方法有效提高了不平衡数据集中少数类的预测精度。

全文