步入了大数据时代,可接收到的信息越来越多。面对海量的信息,无论是新闻的阅读者还会新闻网站的工作人员,往往都面对这一个问题——文本分类。人工分类耗时耗力,且工作效率随时间增加而下降,这些缺点无不将这件难题推向计算机来解决。本文选择朴素贝叶斯算法,以多篇新闻为实验训练样本进行实验,结合数据预处理、汉语分词等过程得出一个较完整的数学模型,并对数据平滑技术提出改进,为今后学者的研究提供一个可参考的方案。