摘要

不均衡文本分类时分类结果过于倾向多数类,忽略少数类,导致分类效果较差,本文研究了基于深度学习的不均衡文本分类方法。利用类别区分能力(DA)方法选择不均衡文本特征,将评分标准设置为文档概率相关度之差的最小值,令所选取文本特征均衡分布于多数类以及少数类中,改进文本特征的均衡性。将特征选取所获取的子集作为多个受限玻尔兹曼机所构成的深度信念网络的输入,受限玻尔兹曼机通过预训练获取训练样本的最佳概率分布,利用对比分歧算法确定受限玻尔兹曼机权值,完成受限玻尔兹曼机参数设定后,利用贪婪算法迭代训练受限玻尔兹曼机,直至完成全部文本分类。实验结果表明:该方法可有效分类不均衡文本,分类精度高达99.5%以上。

全文