摘要
模糊孪生支持向量机(FTSVM)忽略了不同特征间的差异,导致核函数或距离的计算无法准确反映样本间的相似性,使FTSVM在处理含有大量不相关或弱相关特征的高维数据分类时,难以达到良好分类效果;且隶属度的设计未有效区分离群点或噪声。针对以上问题,提出了一种基于特征加权混合隶属度的FM-FTSVM。首先计算每个特征的信息增益,并依据信息增益值的大小为特征赋予权重,降低不相关或弱相关特征的作用,使其能更好地应用于高维数据分类;然后,为每一类样本构造一个最小包围球计算基于紧密度的特征加权隶属度,并结合基于距离的特征加权隶属度得到特征加权混合隶属度,综合考虑样本点到类中心的特征加权欧式距离和样本间的紧密程度,可更好识别离群点或噪声数据;最后,融合特征加权核函数,降低不相关特征对核函数或距离计算产生的影响。与对比算法在人工数据集、高维数据集和UCI数据集上进行比较,发现本文提出的方法在区分离群点、噪声和有效样本上有明显优势,且在高维数据集上可获得更好分类效果。
- 单位