摘要

随着对非均衡数据研究的不断深入,集成方法因其复杂度低、性能好的特点逐渐成为二类非均衡数据研究的热点。传统集成方法的集成规则较为简单,但其分类效果很差,而现存的集成方法又没能很好地解决类内不均衡的问题,一定程度上影响了分类的性能。因此论文结合改进的二分K-means算法和优化后的MaxDistance集成规则,提出了一种以SVC为基分类器的集成方法。这种方法结合了原始数据的空间分布和空间距离的特点,在不丢失任何有用信息、不增加任何人造数据的条件下将二类非均衡问题转化成均衡问题。实验结果表明,论文提出的集成方法同现存的多种同类型的二类非均衡数据处理方法相比,在处理相同的标准数据集时具有更好的分类效果。