摘要

针对海量的中文专利文本,为提高人工分类的效率,减少由分类人员主观知识和客观因素影响导致的错误分类,本研究提出一种融合标签层次结构信息的专利文本分类模型。以2017年中国专利申请数据为实验数据集,针对国际专利分类号的层次结构信息构建一个全局的层级多标签分类模型,并在专利文本表征中融入专利标签的层次结构信息。实验结果表明,在中文专利文本分类领域融入标签的层次结构信息有助于提升模型性能。