摘要
针对超多标签分类(SMLC)带来的数据稀疏性和可扩展性等问题,根据深度卷积神经网络(CNN)提出了基于层次型标签集的文本分类方法,以完成数据标签规范化.该方法对每个文档的标签集进行扩展,并整合了标签层次结构中所有缺失的标签.通过CNN实施特征提取模块,以及由全连接神经网络组成分类模块.此外,分析了在输入训练文本的表征中使用不同类型的嵌入模型及其不同组合的影响.实验使用公开的PubMed科研文献集对所提方法进行评估,实验结果证明了所提方法能够处理高复杂性问题;在层次型度量和平均准确率方面,该方法优于一些现有的方法.
-
单位电子信息工程学院; 青海师范大学; 郑州工业应用技术学院