摘要
传感器和物联网技术的广泛使用催生了大量流数据。面对海量、连续且实时到达的流数据,其存储、查询以及后续大量数据的连续使用和分析是迫切需要解决的问题,而流数据压缩是其中一个有效方法。设计了一种数据概要算法,贪心的哈尔小波概要(greedy-Haar-synopses,GH-Synopses),对流数据进行有效的压缩。首先,设计了一种可以实时处理连续数据的概要数据结构;然后,在Haar小波变换的基础上用一种贪心策略生成尽可能少的概要数据,从而实现有损的流数据实时压缩。相比于现有的Haar小波类数据概要算法,GH-Synopses能够兼顾压缩率和实时性,并能够控制单个数据的误差界限,可以适用更广泛的场景。利用深圳市路段行驶速度数据进行了验证,结果表明,GH-Synopses算法所生成的概要数据数量少,一般压缩率可达到3%~7%,且能高效重构,重构后的每一个数据误差均不会超过设定的误差预值,是一种有效且高效的流数据压缩方法。
-
单位武汉大学测绘遥感信息工程国家重点实验室