摘要
医学文本分类对于辅助医疗、构建医学文本结构化数据具有重要的价值和意义。文章提出一种基于迁移学习和集成学习的临床试验筛选标准短文本分类技术。首先,利用目标领域数据集对预训练语言模型进行微调来实现迁移学习得到在目标领域的语义增强语言模型;其次,将上述含有丰富目标领域语义信息语言模型与主流的神经网络模型结合得到医学文本分类器,再针对医学文本分类任务进行模型分类器的微调;最后,通过模型集成并采用beam search ensemble算法提高整个文本分类系统的性能,最终在CHIP2019评测三测试集上F1值达到了0.811 1。
- 单位