摘要
针对自适应增强(AdaBoost)算法的基分类器线性组合效率低以及过度关注难分样本的问题,提出了基于间隔理论的两种改进算法WPIAda与WPIAda. M。首先,WPIAda与WPIAda. M算法都将样本权值的更新分为四种情形,从而增加间隔从正到负变化的样本权值来抑制间隔的负向移动,并减少间隔处于零点的样本数量;其次,WPIAda. M算法根据基分类器的错误率与样本权重的分布状态,给出新的基分类器系数求解方法,从而提高基分类器的组合效率。在10个UCI数据集上,与dfAda、skAda、swaAda等算法相比,WPIAda和WPIAda. M算法的测试误差分别平均降低了7.46个百分点和7.64个百分点;AUC分别提高了11.65个百分点和11.92个百分点。实验结果表明,WPIAda和WPIAda. M算法可以有效降低对难分样本的关注,并且WPIAda. M算法能够更高效地集成基分类器,因此两种算法均可进一步提高分类性能。
- 单位