摘要

针对信息时代中遇到的脏数据现象,研究类比分析了林业信息化过程中所存在的数据质量问题以及产生的原因,从统计学和数据挖掘与模式识别的层面介绍了面向异常记录检测和重复记录检测的数据清洗算法,探索了基于分类算法和聚类算法的数据清洗方法在林业样地数据中的应用,验证了数据清洗算法在林业行业的可行性,提出了存在相应的应用瓶颈。