摘要

关联规则是描述数据集中不同项之间的稳藏关系,现有的挖掘算法大多是挖掘数据集中满足用户指定的最小支持度和最小置信度约束的所有关联项。由于仅有一个最小支持度用于整个数据集,如果最小支持度很高,则不能发现出现频率较低的项目;如果最小支持度太低,则会出现规则爆炸的现象。为此,提出一种基于频率的多最小支持度挖掘算法,该算法将数据集中各项目实际频率作为其最小项目支持度,并通过设置项目频率最小阈值控制频繁项集的产生。在合成数据集、Zoo数据集和kaggle提供的数据集上的实验结果表明,该算法能更加有效地挖掘关联规则。