摘要
事件抽取是信息抽取的重要任务之一,其在知识图谱构建、金融行业分析、内容安全分析等领域均有重要应用。现有中文事件抽取方法一般为实体识别、关系抽取、实体分类等任务的级联。将事件抽取转化为阅读理解任务,可为模型引入问题所含的先验信息。本文提出一种基于预训练模型的机器阅读理解式中文事件抽取方法(CEEMRC Chinese Event Extraction by Machine Reading Comprehension),将中文事件抽取简化为两个问答模型的级联。首先,对事件触发词抽取、事件类型判定、属性抽取构建相应的问答任务问题,接着,以RoBERTa为基础构建触发词抽取和事件类型识别联合模型、事件属性抽取两个问答模型,并融入触发词先验特征、分词信息、触发词相对位置等信息来提升模型效果。最后,以模型预测回答的起始和结束位置完成所需的抽取。实验使用DuEE中文事件数据集,触发词抽取和属性抽取的F1值均优于同类方法,验证了本方法的有效性。
-
单位经济管理学院; 北京邮电大学