摘要
ETL工具从异构数据源抽取数据,并将数据清洗、规范化后装载入数据仓库。数据源的多样性及数据集的复杂性为ETL工具的设计提出了挑战。本文设计并实现了一种基于微软DirectShow技术的ETL工具框架,使用通用数据访问接口屏蔽数据源的差异,将转换图的概念引入ETL工具的设计中,灵活应对复杂的ETL转换。
-
单位中国科学院; 中国科学院沈阳自动化研究所
ETL工具从异构数据源抽取数据,并将数据清洗、规范化后装载入数据仓库。数据源的多样性及数据集的复杂性为ETL工具的设计提出了挑战。本文设计并实现了一种基于微软DirectShow技术的ETL工具框架,使用通用数据访问接口屏蔽数据源的差异,将转换图的概念引入ETL工具的设计中,灵活应对复杂的ETL转换。