摘要

采用不一致性或含有冗余特征的样本数据集往往会降低分类的质量和效率。提出了一种将分类数据集一致化,并在此基础上选择最小特征变量集的方法。该方法首先根据贝叶斯公式,将非一致数据归为最可能的一类,使数据集一致化,然后在一致数据集上,定义类别区分矩阵,选择最小特征变量集,并给出了在类别区分矩阵上搜索最小特征变量集的启发式搜索策略。采用UCI标准数据集的实验结果表明,提出的方法可有效地删除数据集的不一致性,选择的最小特征变量集可准确区分各类数据并降低数据的维数。

全文