裁判文书关键词提取的改进方法研究

白凤波<sup>*</sup>; 常林; 王世凡; 李彬; 王颖洁; 周红; 刘耀

摘要

在国家加强依法治国的方针指引下,自然语言处理(NLP)和信息检索(IR)等领域与法治社会的深入结合是必然趋势。为司法工作者提供正确、全面的智能化辅助以提高工作效率,对裁判文书的关键词提取方法进行了研究。针对传统关键词提取方法的劣势,结合词语的词性、长度、词跨度、位置以及文档所属类别等多重因素,并基于图模型的TextRank算法,提出了一种改进的TF-IDF算法(IAKEF),引入信息熵、离散度、融合特征的概念,主要解决了传统算法对于词语在语义上的忽略和类间、类内信息分布上的问题,使其能够更有效地从文本中选择特征。通过对比实验,对改进算法的效果进行分析和评价,实验结果表明改进的算法与传统的算法相比在准确率、召回率及F1-Measure上均有显著的提高。

单位
中国政法大学; 中国科学技术大学; 公安部物证鉴定中心

收藏分享被引浏览

更新时间：2024-04-12 12:58

裁判文书关键词提取的改进方法研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友