摘要

在粗糙集领域中,粒球的产生可以被视作是一个无监督的进程,其终止条件是无监督产生的粒球需达到根据标签信息所计算出来的纯度。当数据中存在大量不一致情形时,样本自身的标签信息有可能会为生成高纯度的粒球带来较大阻碍,基于粒球粗糙集的约简求解因受粒球生成这一因素的影响,也会耗时巨大。鉴于此,首先,将伪标签策略引入粒球的计算过程中,因为伪标签的生成也可以采用无监督的方式,所以可以较好地贴合粒球中样本的聚集,减少不一致情形,提高粒球的产生效率。其次,设计了前向贪心搜索算法,用于求解基于伪标签粒球粗糙集的约简。最后,在12组基准数据集上的实验结果验证了所提方法不仅能够有效地提升约简的求解效率,而且也能够保证约简中的属性具备相当的分类能力。