摘要

针对无监督SimCSE相同语义正样本差异性不足、模型训练与预测阶段具有不一致性的问题,基于SimCSE提出一种改进的无监督句嵌入方法SimCSE-PSER。采用dropout和位置嵌入扰动联合进行数据增强,提升正样本质量;引入R-Drop正则化方法,降低无监督SimCSE使用dropout作为数据增强方法带来的训练与预测阶段不一致性。实验基于BERT模型在跨领域的4个中文语义文本相似度任务数据集上进行,结果表明该方法优于其它主流无监督句嵌入方法。

全文