摘要

传统的不均衡数据集处理方法存在人工设置特征繁琐、普适性差等缺陷,难以适用于海军军械不均衡文本数据集处理。针对此问题,本文提出一种基于biRNN模型的海军军械不均衡文本数据集处理方法。通过biRNN模型自动学习文本序列特征,以双向文本序列预测方式扩展少数类文本,达到文本数据均衡目的,并在均衡数据集的基础上将整个文本数据集进行扩充。分别对原始数据集、均衡数据集、扩充数据集进行文本分类实验,实验结果表明,基于biRNN的不均衡数据集扩展方法对原始数据集进行均衡、扩展处理能够有效提高文本分类的性能。