摘要
堆叠泛化有着与生俱来的高复杂性、"数据泄露"的问题,同时针对不同的数据样本也存在稳定性方面的问题。为此,本文提出的基于敏感哈希的堆叠算法LBDS,利用局部敏感哈希(local sensitive hashing,LSH)算法,首先将训练集和测试集映射到哈希桶,当其中某个桶满时作为开始训练条件,训练出的模型对下一次桶满时的训练数据和测试数据及其邻域进行预测。接着,利用稳定性和信息熵条件对基分类器筛选,生成高层数据。最后,将高层训练预测得到的结果通过混合投票和平均的方法求得最终分类结果。在若干数据集上的验证结果显示,LBDS在Acc和AUC上有平均2%的改进,训练时间复杂度有10%的降低,同时表现出更好的稳定性和更强的泛化能力。
-
单位东北林业大学; 国家林业局哈尔滨林业机械研究所