基于XGBoost的医药专利多标签文本分类

作者:戴佩娟; 贺春林*; 山岳玉蓉
来源:内江师范学院学报, 2021, 36(10): 55-60.
DOI:10.13603/j.cnki.51-1621/z.2021.10.010

摘要

为了解决人工标引方法效率低,人力资源成本高等问题,提出了一种基于XGBoost的医药专利大数据自主标引方法.该模型能够自动提取专利特征,准确、快速地完成专利自主标引任务,用已经做了标引的医药专利数据训练模型,取得了查准率达0.970219,查全率达0.832452的效果.并且使用同样的训练集和测试集数据将该模型与基于Bi-Lstm+Attention、基于TextCNN两种模型做比较,查准率相较分别高7.5、14.1个百分点.