摘要
新闻事件聚类旨在从海量新闻文本中挖掘若干个不同主题的事件簇。目前事件聚类大多基于文本语义表征,忽略了事件知识的指导作用,且由于表征学习和目标聚类的迭代进行,不仅容易造成误差累积,还只能处理离线任务,限制了对实时新闻数据的处理。针对上述问题,该文提出一种融入事件知识的新闻事件对比聚类方法,该方法在文本表征的基础上,融入事件关键信息丰富事件表征;将聚类标签作为表示,同时在实例级和簇群级进行对比学习;以端到端的方式联合学习表示和簇群分配,实现对数据流的聚类。实验结果表明,该方法相较于其他基线模型,提高了3%。
-
单位昆明理工大学; 自动化学院