摘要
企业所属行业对于国民经济统计、市场监督管理等领域具有重要作用。在现如今庞大的行业规模下,人工进行企业行业分类不但效率低下,而且可靠性不高。在行业划分规范中,企业所属行业由企业的经营范围描述而得。针对传统词向量加机器学习的方法难以有效融合企业经营范围上下文语义信息等问题,提出了一种XLNet-BiGRU-Attention的行业分类方法。该方法首先通过XLNet网络从企业经营范围文本中获取具有上下文特征信息的语义表征向量,其次构建基于双向门限循环神经网络和注意力机制的候选集生成网络来进一步提取企业经营范围上下文相关特征,再次通过构建键值对嵌入网络来进一步挖掘企业其他标签对于行业分类的提升效果,最后将融合后的特征向量输入到分类器完成企业行业分类。相较于其他基线分类方法,该方法能够取得更好的行业分类效果。消融实验结果表明:该方法所构建的候选集生成网络和键值对嵌入网络能够提升行业分类的性能。