摘要
[目的]解决因中药自身的复杂性以及现有专利分类模型无法提取到充分的中药专利特征信息而导致分类准确率不理想问题。 [方法]提出中药专利多特征融合分类模型MPMFC(Traditional Chinese Medicine Patent Multi-feature Fusion Classifier):基于专利核心字段的相似度信息构建中药专利相似度网络;利用Node2vec算法从中药专利相似度网络的全局结构中捕获潜在专利间的邻里结构信息,使其映射成低维向量作为补充特征;将经过RoBERTa-Tiny预训练的专利语义特征与其对应的补充特征使用Attention机制进行特征融合,进而实现中药专利的自动化分类。 [结果]实验结果表明,在真实7000条中药专利语料库上,MPMFC模型在准确率、召回率和F1值分别达到了0.8436、0.8017、0.8221,相较于基线分类模型分别提升了1.58%,2.59%和2.12%。 [局限]构建中药专利相似度网络时分配权重具有一定的主观性,非中药科研人员在进行专利标注时会存在部分分类错误。 [结论] MPMFC模型在中药专利分类过程中能从多角度获取并学习更丰富的特征表示。从而提高分类准确性。
- 单位