摘要

针对当前新闻文本需要人工进行分类的不足,提出了一种基于余弦定理对文本进行自动分类的方法。通过网络爬虫技术爬取大量不同类别的新闻文本,从而建立文本库。使用TF-IDF技术对文本库进行分类别关键词提取,统计得出不同类别新闻的关键词。将需要判断类别的文本关键词和统计得出的类别关键词分别生成特征向量,通过余弦定理进行相似度计算,从而得出文本的类别。该方法结果准确、性能高效,为新闻文本自动分类提供了一种新思路。

全文