摘要

关联规则发现是数据挖掘的核心技术,其中最经典的算法是Apriori算法。Apriori算法创建模型的方法是一次性抽样的方法。这种机器学习中传统而主流的建模技术,通常需要大量的样本量,这无疑会导致算法执行效率低下。最近几年,一些自适应的抽样建模方法逐渐得到重视,其中CarlosDomingo眼3演提出的基于序贯抽样理论的可升级性算法是其中之一,这一方法为用更少的资源建立稳健且不断更新的模型提出了新的思路。文章首先比较序贯抽样算法与传统的一次性抽样算法在关联规则中发现中的不同,接着论述将序贯抽样算法与Apriori算法结合同时达到节省空间和样本量的APASAR算法,最后通过模拟比较三种不同算法的执...