摘要
为了提高文本分类的性能,降低人工分类带来的错误率,提出一种基于改进SimBERT的专利文本分类模型.首先,从欧洲专利局爬取与藏医药相关的专利文本,知网的数据做补充,对文本数据做数据清洗与文本预处理去除噪声项等工作.其次,提取藏医药专利文本中摘要字段数据的关键词,将提取到的数据按8∶2分成训练集和测试集,将训练集数据送入SimBERT中进行编码,得到embedding向量为原始embedding向量.然后通过融入通道注意力机制得到一个加权的embedding向量,再将优化后的向量输入到卷积神经网络层中提取特征信息.将测试集数据输入到BERT、ALBERT、Chinese-Word-Vectors、SimBERT以及SimBERT-CAM-CL模型中进行比较,准确率分别为0.808、0.825、0.776、0.813、0.843.结果表明,本实验提出的SimBERT-CAM-CL模型能有效提升文本分类效率及其分类性能.
-
单位西藏民族大学