摘要

事件抽取是自然语言处理(Natural Language Processing,NLP)领域的一个研究热点。现有的事件抽取模型大多基于小规模训练集,无法应用于大规模开放领域。针对大规模开放域事件抽取中事件表征困难的问题,提出了一种基于Zipf’s共生矩阵分解的事件向量计算方法。首先,从开放语料中提取事件元组作为事件标签,并对事件元组进行抽象、剪枝和消歧。然后,利用Zipf’s共生矩阵表示事件的上下文分布,利用主成分分析(Principal Component Analysis,PCA)对共生矩阵进行分解,得到初始事件向量,并利用自编码器对初始事件向量进行非线性变换。采用最近邻检测和事件检测两种任务对事件向量的性能进行测试,结果表明,基于Zipf’s共生矩阵分解得到的事件向量能够对事件之间的相似性和相关性信息进行全局性表征,避免编码过细而造成语义偏移。