摘要
针对火灾文本中各类别分布不均衡的特点,提出了基于改进朴素贝叶斯(INB)的文本分类算法,用于对其进行相对准确的分类。首先,利用改进的卡方统计(ICHI)方法提取各类别文本特征词条,再根据特征词条在对应类别中所起的作用不同,使用词频-反文档频率(TF-IDF)加权计算方法对其赋予不同的权重,从而构建INB分类器;接着,通过分词处理和特征词提取,构建火灾文本数据集;最后,应用INB分类器实现对火灾文本的有效分类。本方法规范化地提取和表示了火灾文本的特征词条,解决了火灾文本在训练集数据量少且各类别分布不均衡时存在少数类别特征被覆盖和分类准确度受特征词集规模影响较大的问题。为了验证本方法的有效性,引入Kappa系数作为分类器性能评价指标,并与传统朴素贝叶斯方法和补集朴素贝叶斯算法进行比较。结果表明,所提方法准确度和Kappa系数分别达到了91. 45%和0. 903,分类器性能比较理想,能够较为准确地对类别分布不均衡的火灾文本进行分类。
- 单位