针对如何有效地处理、分析和管理大数据的问题,研究提出一种基于大数据场景中的分布式ETL作业调度方案,将多源异构的数据统一抽取,进行清洗、转换、集成加载到数据仓库,改进后的ETL比传统的开源工具提升了性能和可靠性。