基于K均值聚类的分段样本数据选择方法

作者:周玉; 孙红玉; 朱文豪; 任钦差
来源:计算机应用研究, 2021, 38(06): 1683-1688.
DOI:10.19734/j.issn.1001-3695.2020.09.0236

摘要

为了提高神经网络分类器的性能,提出一种基于K均值聚类的分段样本数据选择方法。首先通过K均值聚类把训练样本根据已知的类别数进行聚类,对比聚类前后的各类样本,找出聚类错误的样本集和聚类正确的样本集;聚类正确的样本集根据各样本到聚类中心的距离进行排序并均分为五段,挑选各类的奇数段样本和聚类错误的样本构成新的训练样本集。该方法能够提取信息量大的样本,剔除冗余样本,减少样本数量的同时提高样本质量。利用该方法,结合人工和UCI数据集对三种不同的神经网络分类器进行了仿真实验,实验结果显示在训练样本平均压缩比为66.93%的前提下,三种神经网络分类器的性能都得到了提高。

全文