基于二进制编码的Apriori改进算法

作者:胡世昌; 李劲华*; 王常颖
来源:计算机应用研究, 2020, 37(02): 398-400+423.
DOI:10.19734/j.issn.1001-3695.2018.07.0519

摘要

Apriori算法在挖掘频繁项集时需要多次扫描数据库,这样会因为频繁的IO操作而导致效率低下。为了改进算法的执行效率,提出BE-Apriori(binary encoded Apriori)算法,其充分利用了二进制数相比编程语言中各种数据结构在内存及运算速度上的优势,对事务记录进行二进制编码后加载到内存,然后利用等效的二进制数之间运算代替集合之间的运算。分析了算法性能,并利用UCI数据集中的毒蘑菇数据对BE-Apriori算法进行实验验证。结果表明BE-Apriori可以正确挖掘频繁项集,并且相比Apriori算法有着更好的性能。

全文