面向复杂数据审计需求的数据血缘构建方法

作者:潘晓华; 金泳; 高扬华; 朱心洲; 沈诗婧
来源:计算机应用研究, 2024, 41(01): 76-82.
DOI:10.19734/j.issn.1001-3695.2023.05.0214

摘要

针对复杂数据审计需求,现有方法是通过查询分析数据库中每条执行语句信息,数据审计效率低下;目前也有一些手段是使用数据血缘工具进行快速查找,但是这种方式需要侵入系统获取源码,容易造成数据泄露或者被恶意窜改。针对这些问题,提出一种面向复杂数据审计需求的数据血缘构建方法,融合日志预处理、数据关系解析、数据对齐等关键技术,通过解析系统运行日志信息以非侵入的方式实现数据血缘图谱的构建,并面向烟草物流出入库环节形成数据审计工具。以烟草物流中13 796个批次货物在流转过程中所对应的155 728条事务日志为测试数据集,从完整性、构建成本、数据审计效率三个方面进行对比实验。结果表明,提出的方法能够在10 s内完成查询任务,占用内存为1.23 MB/百条,明显少于现有方法。相比现有方法,提出的方法可在数据级粒度上进行完整准确的数据血缘构建,且使用基于该方法所构建的数据血缘进行数据审计能够大幅度提升卷烟物流过程中的数据审计效率。

全文