摘要
稀疏核方法作为一类分类算法,因其良好的解释性和广泛的适用性,在近几十年的机器学习领域获得了巨大成功.概率分类向量机是其中代表.概率分类向量机通过引入截断高斯先验,不仅拥有概率输出,也保证了结果对核参数的稳定性.然而该算法是基于二分类问题建立,无法直接应用于多分类问题.本文从贝叶斯框架出发,提出了能够直接解决多类问题的截断高斯多类模型和用于求解该模型的基于变分贝叶斯的优化算法.在模型参数上,本文采用截断高斯先验,从而在算法训练时能够更好地利用基样本对应的标签信息.不随数据集类别数增加而增加的权重个数,不仅缓解了过拟合问题,也减轻了优化算法的时间空间消耗.该算法的参数更新是在类内进行,异类之间没有干扰,这个特性不仅使得它的时间复杂度优于其它贝叶斯算法,同时也保证了当数据集各类不平衡时,不会完全忽略小类数据.多个实验表明:在分类错误率和AUC值上,本文提出的模型和算法在多个数据集上都优于对比算法,尤其是当数据集的类别数较大时,有明显优势.
- 单位