摘要

针对中文发明专利文本的文字描述专业性强、人工分类耗时耗力等问题,提出一种基于BERT-BiGRU模型的中文专利文本自动分类方法,利用预训练的BERT模型完成对中文发明专利文本进行向量化语义表征,引入词嵌入和多头注意力机制等方法抽取专利文本中词语的上下文语境语义信息,最终通过双向GRU门控网络完成对中文发明专利的分类。以Incopat专利数据库中的专利文本构建数据集,设计多组对比实验,实验结果表明,所提方法可以有效提高分类模型对中文专利文本的差异性特征提取能力,对8类专利文本的分类准确率达到了85.44%。

全文