摘要

现有的结构化数据的数据血缘分析方法以改造数据库查询语言的执行过程为主,应用局限性较强,对此文中提出一种基于元数据映射关系的结构化数据血缘分析方法。该方法对业务表和字段的元数据信息进行统一维护,支持通过SQL解析、手动配置等手段构造并存储表和字段的元数据映射关系,以此记录表和字段的数据流向。然后,给出针对特定表和特定字段的血缘分析算法,算法分别基于深度优先搜索和广度优先搜索的思想,对存储的元数据映射关系进行分析,得到对输入表和输入字段有贡献的上游表和上游字段。再以有向图形式展示的分析结果直观地表达结构化数据的起源信息。该方法可以帮助数据分析人员快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。

全文