摘要
朴素贝叶斯分类器(Naive Bayes,NB)是一种简单而有效的分类器,特别适用于中小规模数据分类.但作为以整体分类正确率为指导的传统分类方法,它在不平衡数据分类中对少数类的分类能力较弱.针对此问题,本文采用属性加权的方法增强朴素贝叶斯对于少数类的分类能力.类依赖属性加权朴素贝叶斯(class-specific attribute weighted na?ve Bayes,CAWNB)是一种有效的属性加权朴素贝叶斯算法.本文通过在条件对数似然(conditional log-likelihood,CLL)和均方差(mean squared error,MSE)目标函数中引入平衡系数λ,提出了两个新的目标函数λ-CLL和λ-MSE,并进一步提出了通过最大化λ-CLL或最小化λ-MSE确定最优权重值的两个不平衡数据分类算法CAWNBλ-CCL和和CAWNBλ-MSE.在不平衡的UCI数据集上的实验表明,这样的属性加权可以增强朴素贝叶斯对于少数类的分类能力,同时不会过分破坏其的总体分类能力.
- 单位