摘要
数据使用合规性是数据安全治理的关键环节,其重点研究内容为通过文本语义相似性分析实现文本溯源与知识产权保护.针对公开数据资源受限的问题,引入对比学习框架,但现有对比学习常用目标函数存在正负样本耦合算子,导致反向传播梯度衰减严重,且小数据集训练时可利用批次少,模型难以收敛至局部最优.提出一种小数据集对比学习文本语义相似性分析方法,计算对比学习目标函数反向传播时正负样本分别对应的偏导数,消除其中的公因算子,抑制反向传播梯度衰减,提高模型的收敛速度.在公开数据集上的实验结果表明,该方法能够提高模型的训练效率,提升小数据集文本语义相似性分析效果.
- 单位