摘要

事件检测是事件抽取中的关键步骤,其依赖于触发词进行事件类型分类。目前主流的事件检测方法在稀疏标记数据上性能较差,模型过度拟合密集标注的触发词,而在稀疏标记的触发词或者未见过的触发词上失效。现有方法大多通过扩充更多训练实例来缓解这一问题。但扩充后的数据分布不均,存在内置偏差,仍然表现不佳。其原因在于稀疏标注数据的触发词难以识别,导致其事件类型不能被正确分类。为此,对词粒度扩展信息进行探索,在不增加训练实例的条件下,缩小候选触发词的范围,并对候选触发词进行语义扩展,挖掘候选触发词的上下文中蕴含的丰富语义,以缓解稀疏标记数据的问题。首先,通过词性筛选模块寻找候选触发词并对其进行语义扩展,挖掘词粒度语义信息。其次,融合句子粒度语义信息提升语义表征的鲁棒性,最终通过Softmax分类器进行分类,从而完成事件检测任务。在ACE2005和KBP2015数据集上的实验结果表明,该模型在事件检测任务中的F1分数分别达到了79.5%和67.5%,有效提升了事件检测的性能。并且在稀疏标记数据实验中的F1分数达到了78.5%,明显改善了稀疏标记数据的问题。

全文