基于主动学习的数据清洗系统

作者:郭开彦; 王洪亚; 程炜东
来源:软件工程, 2018, 21(09): 37-40.
DOI:10.19644/j.cnki.issn2096-1472.2018.09.011

摘要

ADC(Active learning based data cleaning system)运用主动学习的方法,在高效的清洗过程中,部分利用用户交互,提升模型清洗能力,提高数据质量。ADC包含学习模块和选择模块。在学习模块中,模块维护一个概率分类器,计算确定度(模型对修复结果的确定程度),利用确定度为数据修复做决策。在选择模块中,模块运行数据选择算法,选择最不确定、最有利于数据质量提升的数据交给用户清洗,再选择高分类贡献度的干净数据补充到训练集中,逐步提升模型的修复能力。系统演示表明,ADC系统只需要很少的用户参与,就可以极大地提高数据质量,从而提升了数据清洗的效率。

全文