摘要
在公检法、纪检监察等领域的大数据分析中,结构化数据和非结构化文本数据往往成为主要数据源.基于这类数据进行业务分析时,需要重点提取数据背后的隐型关联,而事件抽取是对此类文本数据进行关联分析的核心基础.过往事件抽取任务将事件触发词识别和事件要素识别分开进行,由事件触发词识别得到的事件触发词及事件类型进行后续的事件要素识别,存在误差传播的问题,且以往的基于表示的方法构建的词向量,对于句子级特征的提取能力存在缺失.提出了一种RBBLC联合抽取模型,以序列标注的方式同时完成事件识别和事件要素识别.所提RBBLC模型基于RoBERTa构建包含更丰富上下文信息的词向量,继而应用BiLSTM-CNN的网络结构捕捉语句内部关联信息进行事件触发词及论元标签预测和事件类型预测.在CEC语料库上进行了抽取实验和归纳分析,本方法的F1值、准确率、召回率三项指标较基线方法分别提高了16%、28%和24%,有效提升了事件抽取任务性能.
- 单位