摘要

随着信息技术的发展,每天都会产生海量数据,我们正处于一个知识爆炸的大数据时代。大数据受到企业界、科技界、政府等各行各业的高度重视。面对庞大的数据集群,需要用数据挖掘的方法来从众多数据中找到隐藏信息。无论在数据分析还是数据挖掘过程中,数据预处理都处于重要地位,占据数据挖掘过程总工作量的60%~80%,数据预处理过程决定着数据挖掘结果的准确性和有效性,而数据清理在数据挖掘中具有重要作用。本文针对各数据挖掘中数据格式不统一、数据清理过程不完善、冗余数据繁多及数据挖掘任务对数据类型的要求不同等问题,探讨了数据清理的基本概念、作用、方法和其中几个关键技术。

  • 单位
    河南财经政法大学