基于序列到序列模型的法律问题关键词抽取

作者:曾道建; 童国维; 戴愿; 李峰; 韩冰; 谢松县
来源:清华大学学报, 2019, 59(04): 256-261.
DOI:10.16511/j.cnki.qhdxxb.2019.21.007

摘要

传统的关键词抽取算法不能够抽取那些没有在文本当中出现过的关键词,因此在抽取法律问题(短文本)的关键词任务上效果不佳。该文提出了一种基于强化学习的序列到序列(seq2seq)模型来从法律问题中抽取关键词。首先,编码器将给定法律问题文本的语义信息压入一个密集矢量;然后,解码器自动生成关键词。因为在关键词抽取任务中,生成的关键词的前后顺序无关紧要,所以引入强化学习来训练所提出的模型。该模型结合了强化学习在决策上的优势和序列到序列模型在长期记忆方面的优势,在真实数据集上的实验结果表明,该模型在关键词抽取任务上有较好的效果。

全文