摘要

针对单一模型用于文本分类存在的模型体量大,难以适用于舆情信息文本的多元化非规范的表达等问题,提出基于Bagging训练思想的、动态微调和二次加权的模型集成算法(Bagging-DyFAS)。首先,使用自助采样构建的数据集训练弱分类器,使该分类器具有一定的先验知识;其次,依据该分类器在开发集的表现,进行一次动态加权和一次静态加权,并使用得到的一系列权重将模型泛化到无标注的数据上,进一步提升模型在文本分类任务的性能。在所构建的数据集上的实验结果表明,在训练一轮的情况下,相较于基线模型MiniBRT、BRT3和LERT(Linguisticallymotivated bidirectional Encoder Representation from Transformer),所提算法的准确率、精确率、召回率和F1值分别至少提升3.6、3.8、1.3和3.2个百分点,实验结果验证了所提算法的有效性。