基于工作流的统计年鉴数据清洗模型构建

作者:张辉; 魏东; 乔璐; 李丹丹; 张玉尧; 郑国清; 冯晓*
来源:河南农业科学, 2021, 50(10): 172-180.
DOI:10.15933/j.cnki.1004-3268.2021.10.022

摘要

为实现统计年鉴数据集成整合和综合快速查询,以2000—2018年《中国统计年鉴》及《河南统计年鉴》等全国31个省(市、区)统计年鉴为例,深入分析其数据特征后,采用Alteryx Designer 2019.2学习版,基于工作流技术,经过提取目录及文件、提取文件中的表单、提取表单中表的内容、数据清洗及规范、规范标识数据的6个维度、数据重组和数据输出共7个步骤构建了统计年鉴数据清洗模型。结果表明,在16 GB内存的笔记本电脑上,模型用时4~5 h即可将数据容量达21 GB、包含33万个文件、120万张表单的统计年鉴数据清洗并整合为1套包含6 000多万条指标数据序列的标准规范数据集。构建的数据清洗建模方法具有高效、可溯源的优势。

  • 单位
    河南省农业科学院农业经济与信息研究所

全文