基于TAN网络的层次约减数据分类清洗方法

作者:杨尚林; 农英雄; 黄汝维; 陈宁江; 梁碧枘
来源:广西大学学报(自然科学版), 2018, 43(03): 1053-1061.
DOI:10.13624/j.cnki.issn.1001-7445.2018.1053

摘要

为提高多源异构环境数据清洗的效率和降低多源异构数据清洗的复杂度,针对多源异构数据环境下存在大量不精确数据的问题,提出一种层次约减分类清洗方法。通过重要度度量算法在数据源层、数据属性层、数据元组层进行层次约减,基于分类算法思想构建TAN网,然后利用数据概率值完成对不精确数据的分类清洗。实验表明所提方法能够有效地提高不精确数据清洗的准确率和清洗效率。

全文