摘要

针对分布式系统中、不同数据中心之间的数据收集,同时解决将数据由关系型数据库交换到非关系型数据库的问题,提出一种基于Flume的MySQL数据库数据自动收集系统。为了符合现实中的生产环境,该系统采用的是一种星型拓扑结构。系统可以自动查询给定的MySQL数据库表,自动检测表中的数据更新,实现自动增量传输,并对原始数据进行封装、解析,最终将数据存储到非关系型数据库HBase中。在测试中,系统中每台机器的平均传输速度可达到1 111 kb/s,系统总的平均传输速度可以达到3 333 kb/s,并且保证了数据的完整性,实现了可靠高效传输的目标。