摘要
针对空管系统的危险源自由文本类别不均衡导致分类器对多数类样本过拟合的问题,结合SMOTE算法和改进级联模型提升危险源文本分类精度。首先对危险源文本集进行分词和停用词处理,并使用TF-IDF算法提取危险源文本特征将其向量化,利用SMOTE算法对向量化后的少数类文本进行随机生成,使文本集的类别分布趋于均衡;再从基分类器和输出类别向量的权重两方面改进级联模型,提高对不均衡空管危险源文本的分类效果。为验证模型的适用性,以空管系统危险源报告为数据源,通过试验验证模型对危险源文本的分类性能。结果表明,Borderline-SMOTE+改进级联模型与传统分类方法相比,能够有效提升少数样本的分类效果,从而提升整体空管危险源文本的分类精度。
- 单位