摘要
针对法律文书命名实体识别的主要问题,提出相应的解决方法。采用BiLSTM-Attention-CRF网络结构,在语义单元特征中加入全局注意力信息,为CRF计算最优路径时突出关键词的影响;通过LDA模型获取主题向量,提高模型面对不同案件类型文书的鲁棒性;提出两种多粒度语义信息结合方式,为模型输入提供更全面的语义表示;采用基于辅助优化的模型训练方式,减少模型对人工标注语料的依赖。通过实验证明,该优化方法是有效的。
-
单位太极计算机股份有限公司