摘要

文本分类问题是自然语言处理中的重要任务。本文将机器学习中的朴素贝叶斯模型以及Softmax回归应用于自动文本分类中,在清华新闻分类语料数据集上实现了基于多项分布与类条件分布假设实现了朴素贝叶斯模型,并使用BOOL、TF、IDF、TF-IDF四种特征权重训练了Softmax回归模型。最后,将两种模型在训练集与测试集上的性能进行对比。