摘要

大数据清洗是数据分析与应用的关键环节之一,针对传统大数据清洗方法缺陷提出一种基于层次约简分类的大数据清洗方法研究。利用大数据清洗原理先判定数据集的属性类别,并建立层次约简分类模型,按照大数据集中值域范围最广的属性确定字符串之间的编辑距离,遍历掉重要性和相关性较弱的干扰数据;采用逆文本词频分割的方式,对大量的冗余数据做聚合处理,进一步降低大数据集冗余程度。实验结果表明,提出方法在数据清理运行时间、查全率和查准率等指标控制方面均有优势。

  • 单位
    眉山职业技术学院

全文