随着数据集和特征维度的增大,使用传统暴力搜索方法的代价也会相应增加。因此,本文提出在基于多阶段向量量化的近邻搜索方法的基础上,改进训练码本阶段,优化初始聚类中心,从而减小向量的量化误差,以此提高召回率。实验结果表明,本文提出的最小化均方误差多阶段码本训练方法,可以进一步地减小向量量化误差,提高实验召回率。