摘要

本文主要研究基于Wasserstein距离的在线机器学习算法,并分别针对分类和回归问题,提出两个鲁棒的在线学习算法.本文首先在特征-标签空间中对Wasserstein距离进行变形,得到了易于处理和计算的变形式.进而,将在线梯度下降(online gradient descent, OGD)算法和Wasserstein距离变形式结合,分别针对在线分类问题和在线回归问题提出了两种具有较好鲁棒性的在线机器学习算法.文章对提出的新算法累积误差值(Regret,后面用Regret指代)进行了分析,证明了算法的Regret与训练轮次T满足O(■)关系.算法的收敛性可基于算法Regret分析得到,可证明在算法训练轮次T趋于无穷时,算法训练出的模型会收敛到理论最优模型.最后,将所提出算法与FTRL(follow-the-regularized-leader)算法、OGD算法、采用批量学习训练方法的机器学习算法进行数值实验对比.在模拟数据集和真实数据集的实验中,所提出在线学习算法准确率、鲁棒性和模型泛化性能均优于FTRL算法和OGD算法;针对大规模数据集时,虽然所提出的在线学习算法准确率与批量学习相关算法相近,但在线学习算法可以大量节省每次输入新数据后的训练时间和数据存储空间;在数据量较小且数据质量较差时,在线学习算法鲁棒性和模型泛化性能表现更优,甚至优于批量学习相关算法.