摘要
当前基于字符级考虑的文本分类方法在长文本分类上,存在输入维度过大致使计算困难以及内容过长难以捕捉长距离关系,从而导致准确度不足的问题。由此,提出基于自适应视图生成器和负采样优化的图对比学习长文本分类模型。首先将长文本分为若干段落,用BERT衍生模型对段落进行嵌入表示,然后基于文本的高级结构将段落的嵌入表示视为节点构建图模型,接着使用自适应视图生成器对图进行增广,并通过图对比学习得到文本的嵌入表示,同时在图对比学习的负采样阶段,引入PU Learning知识修正负采样偏差的问题,最后将得到的文本嵌入表示使用两层线性层进行分类。通过在两个中文数据集上的实验显示,方法优于主流先进模型。
- 单位