摘要
朴素贝叶斯算法建立的文本分类模型预估参数较少、分类效率较为稳定,同时与其他算法相比误差率较小,但是朴素贝叶斯分类模型对特征独立性要求较高,实际应用情况往往很难成立。提出了一种基于特征权重聚类的朴素贝叶斯文本分类算法,该方法借助系统聚类算法将文本相关性较高的文本汇聚成类,然后根据系统聚类算法得到的词频矩阵引入朴素贝叶斯特征权重,有效地减弱朴素贝叶斯算法特征独立性假设的影响,同时降低文本分类决策的错误率,最后在PyCharm上用Python语言实现对算法的可靠性验证,结论证明该算法相对传统朴素贝叶斯文本分类和其他只修改特征权重的文本分类方法相比准确率有很好地提升。