摘要
针对传统顺序执行数据清洗规则因忽略规则逻辑关系导致数据清洗效率低的问题,提出基于解析结构模型(interpretative structural modeling method,ISM)理论构建数据清洗规则链的方法。该方法将规则之间的二元关系基于ISM理论进行推导,转化为规则之间的多元关系矩阵,来构造满足规则之间约束关系的最小冲突规则链,从而提升了数据清洗效率。针对非规范地址数据,构建规则库,通过ISM理论进行建模,设计和构建简约的数据清洗规则链,缩短数据清洗时间,提高数据清洗的效率和正确率。实验结果表明,基于解析结构模型理论构建的规则链相对于顺序执行规则重复比更低,执行时间更少,平均匹配率更高。
-
单位北京信息科技大学; 国家信息中心