一种应用于文本分类的段落向量正向激励方法

作者:钱亚冠; 方科彬; 康明; 顾钊铨; 潘俊; 王滨; Wassim Swaileh
来源:中文信息学报, 2023, 37(07): 51-60.

摘要

文本分类广泛应用于文档检索、网络搜索等领域,其中文本的向量化表示对于分类性能的提高具有重要的影响。在将变长文本表示成定长向量时,传统的段落向量化算法Doc2Vec忽视了该算法每轮训练的次数与段落长度高度相关的问题,以及长段落包含短段落信息的情况,限制了分类模型准确率的进一步提升。针对该问题,该文提出一种应用于文本分类的基于段落向量正向激励的方法。首先,根据中位数划分长、短段落向量,然后在分类模型输入过程中提升长段落向量的权重,实现提高模型分类准确率的目的。在Stanford Sentiment Treebank、IMDB和Amazon Reviews三个数据集上的实验结果表明,通过选择适当的激励系数,采用段落向量正向激励的分类模型可以获得更高的分类准确率。