摘要

线性赌博机模型是在线学习的基本模型之一, 其每个摇臂的平均奖赏可以由线性函数进行参数化. 该模型具有坚实的理论保证和良好的实际建模能力, 被广泛应用于各个问题. 然而在一些现实场景中, 数据通常是从开放动态环境中收集得到, 因而会存在数据不规范的问题, 已有算法缺乏对此的稳健性. 特别关注2类数据不规范性: 奖励函数的回归参数可能随时间变化, 以及环境噪声可能无界、甚至不服从亚高斯分布. 这2类问题分别被称为分布变化和重尾噪声. 为了应对这2类不利因素, 提出1种基于置信上界的在线算法, 该算法使用均值中位数估计器以处理潜在的重尾噪声, 同时采用重启机制来解决分布变化问题. 在理论上,首先建立了问题的遗憾理论下界, 进一步给出了算法的理论保障, 所取得的结果可以回退到已有研究中没有分布变化或亚高斯噪声场景线性赌博机的理论结果. 此外, 针对未知环境设计了实用的在线集成适应技术, 并在合成和真实世界的数据集上进行了广泛的实验来验证其有效性.

  • 单位
    计算机软件新技术国家重点实验室; 南京大学