摘要
基于时间戳的关联规则挖掘算法(SLMCM)主要用于解决新增项的问题,但效率较低,难以适应大数据挖掘。针对这个问题,文中提出了改进算法E-SLMCM和DE-SLMCM。E-SLMCM算法采用垂直结构,仅需遍历数据库两次,在将数据库转化为垂直格式时,可直接记录各项的时间戳,且不需要将每条事务的各项按时间戳进行排序;另外,提出了新的求项集时间戳的方法,在求更高项集的时间戳时不用多次遍历数据库。E-SLMCM算法适合应用于稀疏数据库,为了提高在密集数据库上的运行效率,在E-SLMCM算法的基础上采用差集思想提出了DE-SLMCM算法。所列举的4个基于公共数据集的仿真实验中,在不同最小支持度条件下,E-SLMCM和DE-SLMCM分别在稀疏和密集数据集上运行的时间效率是SLMCM的10~1 000倍。
- 单位