一种融合&alpha;度量的混合数据K-prototypes算法

陈佳佳; 张旺; 刘东海; 张晓琴<sup>*</sup>

doi:10.13546/j.cnki.tjyjc.2023.10.003

摘要

在大数据背景下，分类型数据与混合型数据开始大量出现，如何更好地计算这类数据的相异性度量成为研究焦点。相比特定属性代表特定类的表达形式，模糊类中心表达形式因为含有更多信息、可计算欧氏距离、能更完善地展示不同样本之间的差异性等优点而得到推广使用。模糊类中心是定和为1的频率向量，这同时也符合成分数据的定义，因此，文章引入成分数据处理方式，提出一种融合α度量的改进K-prototypes算法（α-K-prototypes）。针对α度量的特殊性设定了权重调整系数，让分类型数据距离更具有解释性。在实验对比后发现，α-K-prototypes算法在UCI的7个数据集上均优于K-prototypes、K-centers、Improved-K-prototypes算法。为了更好地在实际中应用，文章给出了一种较优α计算准则，并证明其在统计意义上是显著的。

单位
山西财经大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-15 15:06

一种融合α度量的混合数据K-prototypes算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友