摘要

类似Google AdSense这样的定向广告投放系统在过去十年得到了长足的发展和进步,在定向广告投放系统中,机器学习方法在广告点击率预估扮演着重要角色。目前,广告点击率预估模型中的训练数据逐渐呈指数级增长,越来越大的训练数据给模型的扩展性带来了极大的不便。很多有用的特征以及复杂的模型受限制于训练集规模而无法加入到模型之中。借鉴类别不平衡问题中的平衡采样策略,通过多次采样的负样本数据和集成学习,缩短训练时间,改善学习准确率。实验证明在采用了平衡采样之后,点击率预估效果和线上资源消耗都得到了优化。