基于偏序集的数据清洗规则链自动生成方法

作者:何俊; 张彩庆*; 李小珍; 张德海
来源:计算机应用研究, 2021, 38(01): 83-87.
DOI:10.19734/j.issn.1001-3695.2019.12.0617

摘要

针对数据清洗中规则间逻辑冲突频发和出错率高的问题,提出一种基于偏序集的规则链自动生成方法。通过分层组合的数据清洗框架自顶向下对规则进行分类处理,采用偏序集和哈斯图自动生成每个层级的逻辑正确和一致的规则链,并设计出对应的生成算法和自动清洗算法。以扶贫领域数据为例进行实验,结果表明该方法使数据清洗效率有一定提升,清洗结果出错率明显降低,检验了方法的科学性和有效性。