摘要
针对如何更好地维护关系数据库的数据完整性以及帮助审计员找出违规的报销记录的问题,提出了自动发现聚合代数约束(AAC)的算法AAC-Hunter。AAC是一种定义在数据库中两列的聚合结果之间的模糊约束,作用于大多数而非全部记录上。AAC-Hunter首先枚举连接、分组和代数表达式来产生候选AAC,然后分别计算这些候选AAC的值域集合,最后输出AAC结果。但该方法无法应对海量数据带来的性能挑战,因此AAC-Hunter提出了一套启发式规则减小候选约束空间规模以及基于中间结果复用和消除平凡候选AAC的两个优化策略来加速候选AAC的值域集合计算。实验结果表明了对比不使用启发式规则和优化策略的基线算法,AAC-Hunter在TPC-H和European Soccer数据集上分别减小了95.68%和99.94%的约束发现空间,分别缩短了96.58%和92.51%的运行时间。可见AAC-Hunter具备有效性,能够提升审计应用的效率和能力。
- 单位