摘要

委婉语常被用于社交媒体和暗网交易市场,以其表面含义掩盖潜在含义来逃避平台的监管,例如,用“weed”(杂草)代替“marijuana”(大麻)进行非法交易。委婉语识别是将给定的委婉语映射到特定的目标词(潜在含义)。当前委婉语识别的研究没有获得广泛关注,一方面缺乏有效标注的数据集,另一方面现有方法主要关注委婉语句子中的单个词汇,忽略了委婉语的语境信息。针对上述问题,该文提出了双层自监督学习模型——DSLM(Double Self-supervised Learning Method)用于委婉语识别:外层自监督学习框架用来自动构建含标签数据集,以解决缺乏有效标注数据集的问题;内层使用语境对比学习方法,利用委婉语语境信息,拉近委婉语语境表示和目标词的语义距离。实验表明,该方法优于当前最先进的方法,且结果更稳定、模型收敛更快。