摘要
面向裁判文书的司法摘要是提升裁判文书分析能力的关键技术。裁判文书作为审判活动的载体,精准的呈现了案件的审判逻辑,但目前针对其的摘要方法只关注到裁判文书的序列化信息,忽视了裁判文书的逻辑结构,且不能有效解决文本过长、信息冗余等问题。提出基于审判逻辑步骤的裁判文书摘要生成方法,采取“抽取+生成”相结合的方式,抽取部分利用多标签分类方法,依据人民法院审理案件的逻辑步骤抽取出“类型、诉请、事实、结果”四个句子集合,生成部分由微调后的T5-PEGASUS模型得到摘要;并利用基于内部知识的最大相似度匹配算法对“事实”部分的输入文本进行降噪处理,进一步改善了摘要效果。实验结果表明,相比于主流的指针生成网络模型,该方法在ROUGE-1,ROUGE-2和ROUGE-L的F1指标上分别提升了17.99%,21.24%,21.86%,这说明在司法摘要任务中引入逻辑结构能够提升该任务的性能。
- 单位