摘要
事件抽取是信息抽取的重要任务之一,在知识图谱构建、金融行业分析、内容安全分析等领域均有重要应用。现有中文事件抽取方法一般为实体识别、关系抽取、实体分类等任务的级联。将事件抽取转化为阅读理解任务,可为模型引入问题所含的先验信息。提出一种基于预训练模型的机器阅读理解式中文事件抽取方法(Chinese event extraction by machine reading comprehension,CEEMRC),将中文事件抽取简化为两个问答模型的级联。首先对事件触发词抽取、事件类型判定、属性抽取构建相应的问答任务问题。以RoBERTa为基础构建触发词抽取和事件类型识别联合模型、事件属性抽取两个问答模型,并融入触发词先验特征、分词信息、触发词相对位置等信息来提升模型效果。最后以模型预测回答的起始和结束位置完成所需的抽取。实验使用DuEE中文事件数据集,触发词抽取和属性抽取的F1值均优于同类方法,验证了该方法的有效性。
-
单位北京邮电大学; 经济管理学院