面向话题的讽刺识别:新任务、新数据和新方法

作者:梁斌; 林子杰; 徐睿峰*; 秦兵
来源:中文信息学报, 2023, 37(02): 138-157.
DOI:10.3969/j.issn.1003-0077.2023.02.014

摘要

现有的文本讽刺识别研究通常只关注句子级别的讽刺表达识别,但缺乏考虑讽刺对象对讽刺表达的影响。针对这一问题,该文提出一个新的面向话题的讽刺识别任务。该任务通过话题的引入,以话题作为讽刺对象,有助于更好地理解和建模讽刺表达。对应地,该文构建了一个新的面向话题的讽刺识别数据集,包含707个话题,以及对应的4 871个话题-评论对组。在此基础上,基于提示学习和大规模预训练语言模型,该文提出了一种面向话题的讽刺表达提示学习模型。在该文构建的面向话题讽刺识别数据集上的实验结果表明,相比基线模型,该文所提出的面向话题的讽刺表达提示学习模型性能更优。同时,实验分析也表明,面向话题的讽刺识别任务相比传统的句子级讽刺识别任务更具挑战性。本文的数据集和代码已发布在https://github.com/HITSZ-HLT/Tosarcasm.

全文