摘要

现有密度加权孪生支持向量回归机(DWTSVR)是一种能够反映数据内在分布的回归算法,具有预测精度高和鲁棒性等优点,然而其并不适用于训练样本是以增量形式提供的场景。针对该问题,提出一种增量式稀疏密度加权孪生支持向量回归机(ISDWTSVR)。首先,辨别新增数据是否为异常样本,并赋予有效样本适当的权重,降低异常样本对模型泛化性能的影响。接着,结合矩阵降维与主成分分析的思想,筛选出原始核矩阵中的一组特征列向量基代替原特征,实现核矩阵列稀疏化以获得稀疏解。其次,借助牛顿迭代法和增量学习策略,对上一时刻的模型信息进行调整,实现模型的增量更新。此外,引入矩阵求逆引理避免增量更新过程中直接求解逆矩阵,进一步加快训练速度。最后,在UCI基准数据集上进行仿真实验,并与现有代表性算法进行比较。结果表明,ISDWTSVR继承了DWTSVR的泛化性能,在大规模数据集Bike-Sharing上,新增一个样本模型更新所需的平均时间为5.13秒,较DWTSVR缩短了97.94%,有效地解决了模型从头开始重新进行训练的问题,适用于大规模数据集的在线学习。

全文