摘要

随着“十四五”规划提出要保护和激励国内产生更多高价值专利,各类跨学科、跨领域的创新型专利申请量激增,专利自动分类方法辅助人工分类的需求日益增长.目前,中文专利分类主要由审查员根据提交的专利内容,与国际专利分类体系表进行人工匹配来确定所属分类,人工效率低.已有的专利自动分类方法主要从专利中提取文本结构特征和语义特征,将两种特征与国际专利分类体系表中的标签直接进行相似度匹配,没有考虑到国际专利分类表中分类标签解释文本的语义信息,容易导致分类模糊.为此,提出一种基于语义匹配的多标签多层级中文专利分类方法,将传统的文本分类问题转化为基于语义特征的文本匹配问题,以实现专利文本多标签多层级分类任务.通过从国际专利分类表中提取各标签各层级(部、大类、小类、大组和小组)的语义特征,同时从公开专利中提取文本语义特征,并将二者进行语义匹配,从而达到自动分类的目的.在同一数据集上的实验结果显示,该方法能够取得更好的效果.

  • 单位
    淮阴工学院

全文