摘要
【目的】解决因中药自身的复杂性以及现有专利分类模型无法提取到充分的中药专利特征信息而导致的分类准确率不理想问题。【方法】提出中药专利多特征融合分类模型MPMFC:基于专利核心字段的相似度信息构建中药专利相似度网络;利用Node2Vec算法从中药专利相似度网络的全局结构中捕获潜在专利间的邻里结构信息,使其映射为低维向量作为补充特征;使用注意力机制将经过RoBERTa-Tiny预训练的专利语义特征与其对应的补充特征进行特征融合,进而实现中药专利的自动化分类。【结果】在真实的7 000条中药专利语料上,MPMFC模型的准确率、召回率和F1值分别达到0.843 6、0.801 7、0.822 1,相较于基线分类模型分别提升1.58、2.59和2.11个百分点。【局限】构建中药专利相似度网络时分配权重具有一定的主观性,非中药科研人员在进行专利标注时会存在部分分类错误。【结论】MPMFC模型在中药专利分类过程中能从多角度获取并学习更丰富的特征表示,从而提高分类准确性。
- 单位