摘要

数据校验是数据挖掘与知识发现中的重要一环。我国土壤观测数据由于台站观测人员上网条件、观测地记录不便以及需要适当的数据预处理等原因,无法实行在线入库,一般借助于Excel等软件来记录中间结果,再提交土壤分中心,这样的记录过程经常引入不必要的错误。提出了一个基于可定制规则库的土壤数据校验模型。模型主要包括数据格式转换模块、权限管理模块、元数据管理模块、重复记录去除模块、数据校验模块及规则定制与解析模块。低侵入式的轻量级设计,使得在大大减轻数据校验人员工作量的情况下,原有的数据填报流程不需要改变。可定制规则使得模型易于扩展。