摘要
针对现有中文专利文本的自动分类方法存在分类处理过程复杂耗时长、精度低且对硬件的要求较高等问题,本文提出了一种基于fasttext的中文专利文本快速分类的新方法.首先,对采集的专利文本数据使用中文处理工具包FoolNLTK分词,参照百度停用词表去除停用词,减少停用词出现的频率,提高关键词密度.其次,将输入层中的词和词组利用n-gram模型构造文本特征向量,再将文本特征向量通过线性变换映射到隐藏层变量,隐藏层通过求解最大似然函数,根据每个类别的权重和模型参数在输出层上构建Huffman树,利用softmax计算概率实现专利文本分类.实验结果表明,本方法分类精度高,与基于TextCNN、TextRCNN深度学习的专利分类方法相比,分类速度快很多.
- 单位