摘要

针对民航安全信息自动分类应用中存在样本量不足的问题,利用基于变换器的双向编码器表示技术(BERT,bidirectional encoder representations from transformers)预训练模型和简单数据增强(EDA,easy data augment)算法对中国民用航空安全信息系统中的不安全事件信息按单事件类型的事件信息数量级划分出不同数量级的子集,构造支持向量机(SVM,support vector machine)自动分类器,分析不同数量级对应的数据集在模型上的性能表现及在小数据集上的性能提升。结果表明,加权F1(F1w)在单事件类型事件数量为十数量级时提升31.21%,百数量级时提升9.66%,千数量级时提升3.35%。该方法在相对较小的样本集上训练的分类器效果较好,可用于民航安全信息自动分类。