摘要

针对类簇交叉且分布不均衡的复杂数据,依据可信粒度准则,提出一种结合区间二型模糊粗糙C均值(IT2FRCM)聚类与混合度量的两阶段信息粒化算法。在第一阶段,利用IT2FRCM算法对原始数据进行聚类分析,得到初始的信息粒。在第二阶段,综合考虑数据空间分布、样本规模及粒子性质等因素,采用混合度量方法设计均衡证据合理性和语义独特性的粒化函数,并基于可信粒度准则优化由覆盖度和独特性组成的复合函数,求解最佳粒子边界。在人工数据集和UCI数据集上的实验结果表明,该算法能够有效提高不平衡数据的信息粒化质量和粒子代表性,在归类正确数、粒子特性等指标上均取得了理想表现。

全文