摘要

混合型数据是数值型数据和分类型数据的结合,而真实数据集大部分是混合数据,因此混合型数据聚类问题得到越来越广泛地关注.主要工作包括:综合考虑类内熵及类间熵对权重的影响,给属性赋予新的权重,重新定义了寻找最坏类广义机制、有效性指标、相异性度量.提出了1种基于信息熵的混合数据加权聚类算法.该算法在5个UCI数据集上比较了5个外部评价指标和1个内部评价指标,其结果均优于与其余两种算法(Liang-k-prototypes算法,Li-k-prototypes算法).