面向大规模裁判文书结构化的文本分类算法

作者:翁洋; 谷松原; 李静; 王枫; 李俊良; 李鑫*
来源:天津大学学报 (自然科学与工程技术版), 2021, 54(04): 418-425.

摘要

大数据和人工智能作为国家战略,使得新技术在司法领域应用的重要性凸显.同时,最高人民法院推动人工智能在司法领域的深度应用为相关研究提供了契机.最高人民法院主导的信息化建设以及司法公开等需求使得大量的裁判文书上网,裁判文书作为重要的法律文本信息资源,包含大量关键的案件审判信息,具有多元化的研究与应用价值.然而,裁判文书中存在着大量非结构化信息,妨碍了信息的准确抽取.对裁判文书进行结构化处理是基于裁判文书开展研究的重要前提.海量的裁判文书上网,人工处理将耗费大量的时间和精力,而裁判文书规范化改革为人工智能的司法应用提供基础.针对裁判文书结构化任务,已有的正则匹配方法或者基于文本分类模型的研究方法,未能利用文书上下文段落标签的结构特征,结构化效果较差.针对这一问题,提出了一种基于裁判文书段落级别的上下文语义特征信息的序列标注模型方法.通过学习完整的裁判文书中段落标签的结构信息、段落上下文之间的联系,实现良好的裁判文书结构化效果.结果表明:准确率、召回率和F1值较文本分类的基线模型有了全面提高,得到了几乎完全准确的分类效果.另外,本文采取的结构化方法核心在于利用裁判文书段落级别的上下文语义特征信息,该方法可以推广到各种类型的裁判文书的结构化任务.