一种融合α度量的混合数据K-prototypes算法

作者:陈佳佳; 张旺; 刘东海; 张晓琴*
来源:统计与决策, 2023, 39(10): 16-22.
DOI:10.13546/j.cnki.tjyjc.2023.10.003

摘要

在大数据背景下,分类型数据与混合型数据开始大量出现,如何更好地计算这类数据的相异性度量成为研究焦点。相比特定属性代表特定类的表达形式,模糊类中心表达形式因为含有更多信息、可计算欧氏距离、能更完善地展示不同样本之间的差异性等优点而得到推广使用。模糊类中心是定和为1的频率向量,这同时也符合成分数据的定义,因此,文章引入成分数据处理方式,提出一种融合α度量的改进K-prototypes算法(α-K-prototypes)。针对α度量的特殊性设定了权重调整系数,让分类型数据距离更具有解释性。在实验对比后发现,α-K-prototypes算法在UCI的7个数据集上均优于K-prototypes、K-centers、Improved-K-prototypes算法。为了更好地在实际中应用,文章给出了一种较优α计算准则,并证明其在统计意义上是显著的。

  • 单位
    山西财经大学

全文