基于改进SimBERT的藏医药专利文本分类模型研究

罗丽锦; 高屹; 陈颂斌; 樊淼

doi:10.14084/j.cnki.cn62-1188/n.2023.04.006

摘要

为了提高文本分类的性能，降低人工分类带来的错误率，提出一种基于改进SimBERT的专利文本分类模型.首先，从欧洲专利局爬取与藏医药相关的专利文本，知网的数据做补充，对文本数据做数据清洗与文本预处理去除噪声项等工作.其次，提取藏医药专利文本中摘要字段数据的关键词，将提取到的数据按8∶2分成训练集和测试集，将训练集数据送入SimBERT中进行编码，得到embedding向量为原始embedding向量.然后通过融入通道注意力机制得到一个加权的embedding向量，再将优化后的向量输入到卷积神经网络层中提取特征信息.将测试集数据输入到BERT、ALBERT、Chinese-Word-Vectors、SimBERT以及SimBERT-CAM-CL模型中进行比较，准确率分别为0.808、0.825、0.776、0.813、0.843.结果表明，本实验提出的SimBERT-CAM-CL模型能有效提升文本分类效率及其分类性能.

单位
西藏民族大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-15 15:57

基于改进SimBERT的藏医药专利文本分类模型研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友