摘要

【目的】实现对大规模法律文本中法律术语的自动识别,促进法律大数据的结构化进程。【方法】将条件随机场模型作为主动学习算法的分类器,在经过K-means聚类后的语料库中,按照分层抽样的方式抽取用于启动主动学习算法的初始样本,将熵值作为主动学习的样例选择依据,迭代地进行主动学习的学习过程及样例选择过程,直到模型的调和均值F值趋于稳定时停止迭代,输出最终的法律术语自动识别模型——AL-CRF模型。【结果】在中文裁判文书上的命名实体识别实验表明,通过少量且高质的样本训练的AL-CRF模型对于法律术语的识别准确率和召回率可达90%以上,且相较于等标注工作量训练的CRF模型F值提高4.85%。【局限】K-means聚类方法对噪声和离群点较为敏感,可能会影响模型的识别效果。【结论】结合主动学习的条件随机场模型能在保证识别质量的情况下,减少低质量样本的标注工作量。