摘要

针对关系型数据中的不一致错误,现有子集修复方法通常以最小删除元组数量为优化目标求解最优修复方案,以减少对原始数据的更改。但当数据中的错误较多时,该方法的准确率将降低。提出了一种最大概率子集修复方法,利用属性之间的关联关系及概率统计信息对元组的正确性概率进行建模,将最小删除元组的正确性概率之和作为优化目标进行最优子集修复,并给出了高效的最大概率子集修复近似算法。真实数据集和合成数据集上的实验结果表明,最大概率子集修复方法的准确率优于当前最好方法。