摘要

双关语作为幽默研究的一个重要分支,已发展成前沿的研究领域。针对双关语样本短缺的问题,本文提出了基于伪标签和迁移学习的双关语识别模型 (Pun Detection based on Pseudo-label and Transfer Learning)。该模型首先利用上下文语义、音素向量和注意力机制生成伪标签;然后迁移学习和置信度结合挑选可用的伪标签;最后将伪标签数据和真实数据混合到网络中进行训练,并重复伪标签标记和混合训练过程。这在一定程度上解决了双关语样本量少且获取困难的问题。使用该模型在SemEval 2017 shared task 7以及Pun of The Day 数据集上进行双关语检测实验,结果表明模型性能均优于现有的主流双关语识别方法。