摘要

为满足大数据时代下数据库系统高吞吐、低内存占用的索引设计需求,提出一种面向海量数据的基于birch聚类可更新机器学习索引模型。将数据集使用birch聚类进行划分,对分段数据分别使用前馈神经网络进行训练拟合,采用基于日志结构合并树延迟更新思路的异地插入策略,实现索引更新操作。使用真实数据集进行实验,其结果表明,相比传统索引和当前先进机器学习索引结构,该模型在检索速度上有一定提升,在插入性能、内存占用和训练时间上有较大优化。

全文