摘要
基于大规模文本语料库的预先训练模型能够学习通用语义表征,再根据给定数据集进行微调可以显著提升预先训练模型在各类自然语言处理任务的性能。在这种"预先训练模型+微调策略"的模式下,数据特征来源的选择、模型速率的提升、微调策略的设计就显得尤为重要。本文重点介绍强力优化的语义表征模型RoBERTa、基于全词遮蔽的扩展模型RoBERTa-wwm-ext和基于知识蒸馏的压缩模型RBT3等预先训练模型,以及判别微调DF和倾斜的三角学习率STLR等微调策略。在公众留言分类实验中表明,相对仅选取"主题"作为数据特征来源,选取"主题+详情"的效果可提高2%~3%;相对经典语义表征模型BERT,采用RoBERTa-wwm-ext模型的效果可提高2%左右,RBT3模型的速率可提升2~4倍;相对默认微调策略,采用上述微调策略的效果同样可再提高2%~3%。
-
单位数学学院; 上海师范大学; 上海旅游高等专科学校