一种应用于文本分类的段落向量正向激励方法

钱亚冠; 方科彬; 康明; 顾钊铨; 潘俊; 王滨; Wassim Swaileh

摘要

文本分类广泛应用于文档检索、网络搜索等领域，其中文本的向量化表示对于分类性能的提高具有重要的影响。在将变长文本表示成定长向量时，传统的段落向量化算法Doc2Vec忽视了该算法每轮训练的次数与段落长度高度相关的问题，以及长段落包含短段落信息的情况，限制了分类模型准确率的进一步提升。针对该问题，该文提出一种应用于文本分类的基于段落向量正向激励的方法。首先，根据中位数划分长、短段落向量，然后在分类模型输入过程中提升长段落向量的权重，实现提高模型分类准确率的目的。在Stanford Sentiment Treebank、IMDB和Amazon Reviews三个数据集上的实验结果表明，通过选择适当的激励系数，采用段落向量正向激励的分类模型可以获得更高的分类准确率。

单位
南京航空航天大学; 广州大学; 浙江科技学院

收藏分享被引浏览

更新时间：2024-03-18 23:57

一种应用于文本分类的段落向量正向激励方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友