摘要
本发明公开了一种基于类别分布概率的文本特征抽取方法,该方法采用对待分类文本中的词汇进行类别分布差异性评估的方式抽取文本特征词,利用词的类别词频概率计算每个词汇在不同类别上的概率分布的均方差值,抽取一定数目的均方差值高的词汇作为最终的特征集。在实际运用中将获得的特征集作为文本分类任务的特征词构建向量空间模型,并用指定的分类器进行训练获得最终的分类模型对待分类文本进行分类。本发明采用了概率统计方式来精确衡量词的类别分布,并利用均方差的方式对词的分类价值进行评估,可以准确地对文本的特征进行选取;对于文本分类任务而言,可以明显的提高均衡和非均衡语料上的文本分类效果。
- 单位