摘要

在大数据机器学习时代,选择更具代表性的数据集对于模型的训练和验证尤为重要. KennardStone(KS)算法及其各种变种(泛KS算法)是一大类优异的数据集分割方法,但其采样比例或采样数的选择仅能依靠经验或根据建模结果事后评判. KS算法依据原始文献的计算复杂度为O(K3),难以用于超大数据样本量的计算.本文基于数据集完备性的讨论,提出泛KS算法的数据集代表性度量,以简正振动采样的甲烷分子中碳氢键数据特征分布为例展示采样集代表性效果.简化KS采样过程的筛选算法,提高算法效率至O’(K2).提出将数据集切分成多个子集分别实施KS采样的分块采样策略,可进一步提高算法效率至O″(K).偏最小二乘回归测试结果表明,该方法在提高采样效率的同时仍可保障采样集的代表性.