摘要

处理多维数据查询时,为了减少存储消耗,采用学习型索引替代传统索引受到关注. 轨迹点会在时间或者空间维度上的某些区间聚集,数据分布倾斜,从而扭曲学习模型预测精度,导致较高的磁盘访问次数.提出一种基于分段线性回归树的轨迹索引,以降低存储代价并减少磁盘访问次数,包括数据排序和模型训练两个阶段. 在第一个阶段,沿着时间维度划分轨迹点以形成一系列时空子区域,在每个时空子区域根据映射函数对轨迹点进行空间维度的存储,从而确定轨迹点的全局序号.在第二个阶段,使用初始数据构建分段线性回归树作为预测模型,并基于该模型预测位置来存储未来数据.模拟和真实的数据集上的实验表明,该方法在保证查询性能优于学习型索引的前提下,存储消耗和构建时间大幅度降低.