摘要
[目的/意义]针对专题数据库文本资源主题相近、语义相似度高、知识聚敛度高等特点,提出一种基于预训练模型与Blending集成学习策略的专题数据库文本分类模型。[方法/过程]选择BERT、ERNIE、RoBERTa、ALBERT、XLNet预训练模型提取专题文本的多层次特征,基于Blending集成学习方法组合预训练模型,爬取“新华丝路”专题数据库相关文本资源对集成学习模型的有效性与优越性进行验证。[结果/结论]结果显示,与单模型、传统集成学习方法相比,在专题数据库服务场景下,基于Blending集成学习的文本分类模型具有较高的分类性能。
- 单位